2025/12/31

ローカルAI用にRTX PRO 6000 Blackwellを購入したので選択理由とかセットアップ時のトラブル解決とか

ローカルAIを遊び尽くすにはRTX 3090の24GB VRAMが手狭になってきてRTX PRO 6000 Blackwellを購入しました。正式名称はNVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Editionです。 (品番はPG153B?)

2025-12-31現在の最安相場の価格は149万円~160万円。(革ジャンへの献金とVRAM税を含む) 

この日記の内容

・購入理由

・レビュー

・セットアップ&トラブルシューティング


なぜRTX PRO 6000 Max-Qを選択したか

何とか買えそうなローカルAI向けのハードウェアを検討すると競合製品がこれだけあります。(価格帯は2025-12-31現在の最安値の相場参考)

DGX Spark 128GB(とGB10搭載の派生品) 凡そ56-75万円

Mac Studio M3 Ultra 256GB/512GB 凡そ110-150万円

・AMD Ryzen Al Max+ 395 128GB(GMKtec EVO-X2MINISFORUM MS-S1など) 凡そ37-48万円

RTX 5090 32GB 凡そ40-55万円(最近は在庫欠品が多い)

【演算性能が高い】

競合に対して最も高速(3511 TOPS)。LLM用途ではプロンプトのプレフィル(トークン生成の前処理)に大きく影響します。また画像生成、動画生成などの帯域幅より演算性能が重要な用途でもかなり有利。ファインチューニングも演算能力が効きます。4bit量子化にネイティブ対応しているので今後gpt-oss-120b以外にも量子化モデルが出てくると更に伸びしろが期待できる。RTX PRO 6000のGB202はTSMC 4Nで750mm²の超巨大シリコンで、これより演算性能を上げるにはプロセスが数世代進化する必要があり数年間は安泰と予想。

【帯域幅が広い】

競合に対して最も高速(1792 GB/秒)。LLMの推論(トークンの生成)はメモリ帯域がボトルネックなので一番効くところ。GB202は512bitのGDDR7で限界サイズなのでこの帯域を圧倒する製品が出てくるにはHBMが一般向けに降りてこない限り無さげ。

【GPUカード形式】

これは既にPC本体を持っている場合のみメリットになるのですが、CPUオフロードやブロックスワップを活用するとCPU側のRAMと演算能力との連携で巨大なモデルや複数のモデルを柔軟に構成して運用できます。ホスト側の部品交換や増設拡張もし易い。

今回は以下の構成のPCに搭載することでシステム全体として強力なワークステーション(Poor man's AI server)を目指します。

 Threadripper 3970X(32コア Zen2)/256GB RAM/SSD合計10TB/HDD合計48TB/画面描画用にサブGPU搭載

逆にPCが無いなら現状のメモリ相場だと一式揃える導入コストが200万を軽く超えてしまうのでコスパが激しく低下します。

【CUDA対応】

Nvidia最大のモートであるCUDAに対応。AMDやMacでも単純な推論だけなら頑張れば何とかなる場合もありますが、次々出てくる最新のアテンション周りの効率化技術を実装したライブラリの導入やらファインチューニングやらを行いたい場合はCUDAがないと最悪自分で移植作業が必要になり現実的ではないです。

【VRAM96GB】

今回の最大の目的、VRAMが大きいとモデルの選択肢やファインチューニングなど手が出せる領域が広がります。これだけはユニファイドメモリ256GB/512GB搭載のMacに劣る部分ですがシステムRAMとのブロックスワップである程度緩和できます。


なぜMax-Q版か

パフォーマンス的には600Wの通常版のほうが10%ぐらい高速だけど以下の理由でMax-Qを選択。

【外排気タイプ】

ケース内の温度の上昇と隣接するカードへの影響を抑えられ、将来的に中古市場で2枚目を買い足したり、2枚目を探している人に売る際に有利。また構造も1枚のPCBでシンプルな作りになっているので故障個所も少ない。

【消費電力が低く電力効率が高い】

600Wの通常版もnvidia-smiからPower limitを掛けることで電力を300Wに絞れますが、電力を絞って使うなら最初から電力効率最大化のために300W向けに最適化されたVRM構成と電圧設定がされているMax-Qが有利。


なぜレンタルGPU(クラウド)ではないか

普通はクラウドを選んだほうがコスト効率や大規模な複数GPUも借りれて良いですが、以下の理由でローカルGPUを選択しました。

・同等のGPUをクラウドで借りると月額10万以上だしボード本体の資産残価値も含め8か月~24か月程度運用すれば元が取れるはず

・クラウドは学習データの転送や中間処理結果の保管、vLLMとかのライブラリのビルド、データの前処理や後処理の時間も課金される

・あまりに高火力なインスタンスを借りると設定ミスとかキー流出でガチ破産する

・従量課金のプレッシャーから逃げたい

という訳でRTX PRO 6000 Max-Qを選択しました。しかし推論だけしかしないとかコストを抑えたいならAMD Ryzen Al Max+ 395でもアリじゃないでしょうか。商用電源や排熱環境に余裕があるならRTX 3090 x8とかの猛者を目指すのも……

ここからはレビューとセットアップです

レビュー

保証期間

純正Nvidia製品の3年保証。正規輸入品の代理店の保証書も外箱に貼り付けされてました。

付属品

付属品はPCIE8ピンx2からPCIe CEM5 16ピン×1(12VHPWR)への変換ケーブルのみ。純正品らしくNvidiaの印字あり。

使用している電源が古めのANTEC SIGNATURE1300 Platinumで12VHPWRケーブルが無いのでこちらの変換コネクタを使用して給電します。

給電端子

燃えるとか燃えないとか言われている曰くつきの12VHPWR。ピン数減らしたいなら48Vにすりゃいいのに……

映像出力端子

DisplayPort 2.1b×4のみ。RTX6000は演算専用にして画面の描画と出力は別のGPU(AMD Radeon RX 6400)で行うので関係なし。

VBIOS

ラベルによるとVBIOSは98.02.6A.00.03。MIG機能(複数のGPUに仮想的に分割する機能)を使用するにはGPU vBIOS 98.02.6A.00.00以上が必要なのでセーフ。万が一古いVBIOSバージョンの場合は自分でアップデートする手段はないので購入元か代理店に問い合わせるしかない。参考: https://docs.nvidia.com/datacenter/tesla/mig-user-guide/getting-started-with-mig.html

> RTX PRO 6000 Blackwell Max-Q Workstation Edition

> 98.02.6A.00.00

装着

装着自体は簡単で元々使っていたRTX 3090 24GBを引っこ抜いて差し替えるだけで完了。ケースは小さめのFractal Design Define R5だけどRTX PRO 6000は最近のGPUとしてはボードサイズも小さいほうなので余裕。

セットアップ&トラブルシューティング(解決)

Ubuntu 22.04 LTSからグラボの認識は成功。

```

20:00.0 VGA compatible controller [0300]: NVIDIA Corporation Device [10de:2bb4] (rev a1)

Subsystem: NVIDIA Corporation Device [10de:204c]

Kernel modules: nvidiafb, nouveau

20:00.1 Audio device [0403]: NVIDIA Corporation Device [10de:22e8] (rev a1)

Subsystem: NVIDIA Corporation Device [10de:0000]

Kernel driver in use: snd_hda_intel

Kernel modules: snd_hda_intel

```

ドライバはインストール時点で最新安定版のnvidia-driver-580-openをインストール。Blackwell世代ではopen版のほうが推奨らしい。インストール自体は問題なし。


ここでマザーボードが5年前の発売日に買った骨董品のMSI TRX40 PRO WIFIのせいかトラブル発生。

nvidia-smiからグラボが認識されず以下のエラーが発生。

"NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running."

modprobeとdmesgによると"NVRM: This PCI I/O region assigned to your NVIDIA device is invalid"のエラーがでてる。

```

modprobe: ERROR: could not insert 'nvidia': No such device

[  238.322275] NVRM: None of the NVIDIA devices were initialized.

[  238.326597] nvidia-nvlink: Unregistered Nvlink Core, major device number 237

[  238.681111] nvidia-nvlink: Nvlink Core is being initialized, major device number 237

[  238.681122] NVRM: This PCI I/O region assigned to your NVIDIA device is invalid:

               NVRM: BAR3 is 0M @ 0x0 (PCI:0000:04:00.0)

[  238.689748] nvidia: probe of 0000:04:00.0 failed with error -1

[  238.689822] NVRM: The NVIDIA probe routine failed for 1 device(s).

[  238.689824] NVRM: None of the NVIDIA devices were initialized.

[  238.691814] nvidia-nvlink: Unregistered Nvlink Core, major device number 237

[  238.981602] nvidia-nvlink: Nvlink Core is being initialized, major device number 237

[  238.981614] NVRM: This PCI I/O region assigned to your NVIDIA device is invalid:

               NVRM: BAR3 is 0M @ 0x0 (PCI:0000:04:00.0)

```

" NVRM: BAR3 is 0M @ 0x0 (PCI:0000:04:00.0)"とあるのでResizable BARがうまく動作してないっぽい。

Resizable BARの問題を解決する

先にBIOSの設定を確認、VRAMが96GBでサイズが大きいのでデータ転送の効率も考えるとResizable BARを有効にしておきたい。

- Resizable BAR:ON

- Above 4G MMIO BIOS Assignment(Above 4G Decoding):ON

BIOS側の設定は問題なくUEFIがResizable BARで割り当てたアドレス空間のRegion 3のサイズが0になっていることが原因だった。このマザボ固有の問題なのかは不明。VRAM96GBなので相応に確保させるメモリの範囲も広いので旧式のマザボだと問題が出るかもしれない。

```

sudo lspci -vvv -s 20:00.0 | grep -i "region"

Region 0: Memory at c4000000 (32-bit, non-prefetchable) [size=64M]

Region 1: Memory at 8000000000 (64-bit, prefetchable) [size=128G]

Region 3: Memory at <ignored> (64-bit, prefetchable)

Region 5: I/O ports at 6000 [size=128]

```

Grubの起動オプション GRUB_CMDLINE_LINUX_DEFAULT に"pci=realloc,assign-busses"を追加することでUEFIでの割り当てがLinuxカーネル側で正常なマッピングに再配置された。

```

sudo lspci -vvv -s 20:00.0 | grep -i "region"

Region 0: Memory at c4000000 (32-bit, non-prefetchable) [size=64M]

Region 1: Memory at 6000000000 (64-bit, prefetchable) [size=128G]

Region 3: Memory at 8000000000 (64-bit, prefetchable) [size=32M]

Region 5: I/O ports at 6000 [size=128]

```

これで正常にnvidia-smiからも認識され、gpt-oss-120bとかのモデルも動作確認成功。この後でKVM+QEMU+VirtioでのゲストOSへのPCIパススルーも成功しました。

感想

セットアップに手こずったものの無事に初期不良もなく正常に動作できて一安心。VRAMが増えたので小規模なLLMのフルファインチューニングも手元で動かせた。ついでに画像生成もRTX3090から2~3倍ぐらい早くなり非常に高速に。かなり財布が寂しくなったけど投資したぶん(技術的に)回収できるように色々試して活用していきたい。