ローカルAIを遊び尽くすにはRTX 3090の24GB VRAMが手狭になってきてRTX PRO 6000 Blackwellを購入しました。正式名称はNVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Editionです。 (品番はPG153B?)
2025-12-31現在の最安相場の価格は149万円~160万円。(革ジャンへの献金とVRAM税を含む)
この日記の内容
・購入理由
・レビュー
・セットアップ&トラブルシューティング
なぜRTX PRO 6000 Max-Qを選択したか
何とか買えそうなローカルAI向けのハードウェアを検討すると競合製品がこれだけあります。(価格帯は2025-12-31現在の最安値の相場参考)
・DGX Spark 128GB(とGB10搭載の派生品) 凡そ56-75万円
・Mac Studio M3 Ultra 256GB/512GB 凡そ110-150万円
・AMD Ryzen Al Max+ 395 128GB(GMKtec EVO-X2、MINISFORUM MS-S1など) 凡そ37-48万円
・RTX 5090 32GB 凡そ40-55万円(最近は在庫欠品が多い)
【演算性能が高い】
競合に対して最も高速(3511 TOPS)。LLM用途ではプロンプトのプレフィル(トークン生成の前処理)に大きく影響します。また画像生成、動画生成などの帯域幅より演算性能が重要な用途でもかなり有利。ファインチューニングも演算能力が効きます。4bit量子化にネイティブ対応しているので今後gpt-oss-120b以外にも量子化モデルが出てくると更に伸びしろが期待できる。RTX PRO 6000のGB202はTSMC 4Nで750mm²の超巨大シリコンで、これより演算性能を上げるにはプロセスが数世代進化する必要があり数年間は安泰と予想。
【帯域幅が広い】
競合に対して最も高速(1792 GB/秒)。LLMの推論(トークンの生成)はメモリ帯域がボトルネックなので一番効くところ。GB202は512bitのGDDR7で限界サイズなのでこの帯域を圧倒する製品が出てくるにはHBMが一般向けに降りてこない限り無さげ。
【GPUカード形式】
これは既にPC本体を持っている場合のみメリットになるのですが、CPUオフロードやブロックスワップを活用するとCPU側のRAMと演算能力との連携で巨大なモデルや複数のモデルを柔軟に構成して運用できます。ホスト側の部品交換や増設拡張もし易い。
今回は以下の構成のPCに搭載することでシステム全体として強力なワークステーション(Poor man's AI server)を目指します。
Threadripper 3970X(32コア Zen2)/256GB RAM/SSD合計10TB/HDD合計48TB/画面描画用にサブGPU搭載
逆にPCが無いなら現状のメモリ相場だと一式揃える導入コストが200万を軽く超えてしまうのでコスパが激しく低下します。
【CUDA対応】
Nvidia最大のモートであるCUDAに対応。AMDやMacでも単純な推論だけなら頑張れば何とかなる場合もありますが、次々出てくる最新のアテンション周りの効率化技術を実装したライブラリの導入やらファインチューニングやらを行いたい場合はCUDAがないと最悪自分で移植作業が必要になり現実的ではないです。
【VRAM96GB】
今回の最大の目的、VRAMが大きいとモデルの選択肢やファインチューニングなど手が出せる領域が広がります。これだけはユニファイドメモリ256GB/512GB搭載のMacに劣る部分ですがシステムRAMとのブロックスワップである程度緩和できます。
なぜMax-Q版か
パフォーマンス的には600Wの通常版のほうが10%ぐらい高速だけど以下の理由でMax-Qを選択。
【外排気タイプ】
ケース内の温度の上昇と隣接するカードへの影響を抑えられ、将来的に中古市場で2枚目を買い足したり、2枚目を探している人に売る際に有利。また構造も1枚のPCBでシンプルな作りになっているので故障個所も少ない。
【消費電力が低く電力効率が高い】
600Wの通常版もnvidia-smiからPower limitを掛けることで電力を300Wに絞れますが、電力を絞って使うなら最初から電力効率最大化のために300W向けに最適化されたVRM構成と電圧設定がされているMax-Qが有利。
なぜレンタルGPU(クラウド)ではないか
普通はクラウドを選んだほうがコスト効率や大規模な複数GPUも借りれて良いですが、以下の理由でローカルGPUを選択しました。
・同等のGPUをクラウドで借りると月額10万以上だしボード本体の資産残価値も含め8か月~24か月程度運用すれば元が取れるはず
・クラウドは学習データの転送や中間処理結果の保管、vLLMとかのライブラリのビルド、データの前処理や後処理の時間も課金される
・あまりに高火力なインスタンスを借りると設定ミスとかキー流出でガチ破産する
・従量課金のプレッシャーから逃げたい
という訳でRTX PRO 6000 Max-Qを選択しました。しかし推論だけしかしないとかコストを抑えたいならAMD Ryzen Al Max+ 395でもアリじゃないでしょうか。商用電源や排熱環境に余裕があるならRTX 3090 x8とかの猛者を目指すのも……
ここからはレビューとセットアップです
