概要
AICU-SSD-Bench は、実際の AI 技術のユースケースを想定し、
AI ワークロードのパフォーマンスを多角的に計測する
再現可能なオープンソースベンチマークです。
今回はストレージ速度(PCIe Gen5 NVMe / SATA SSD / HDD)が
AI ワークロードに与える影響にフォーカスし、
LLM モデルロード・コード生成・画像/動画生成・音声合成の各タスクで検証。
さらに、長時間負荷での熱影響、モデル頻繁切り替え時の速度安定性、
SSD フラグメンテーションによる性能変化についても評価しています。
テスト環境
本実験環境
参考: 予備調査環境(G-Tune P6-I7G50 ノート PC)
スクリプト検証・仮説構築のために使用した環境。VRAM 6GB の制約により大型モデルの実行は不可。
テスト対象ストレージ
| ドライブ | 種別 | 代表速度 |
|---|---|---|
| D: Samsung 9100 PRO 8 TB | PCIe Gen5 NVMe | ~14,800 MB/s |
| E: Samsung 870 QVO 8 TB | SATA SSD | ~560 MB/s |
| F: HDD 8 TB | SATA HDD | ~180 MB/s |
| G: 9100 PRO 8 TB (ICY DOCK) | PCIe Gen5 NVMe リムーバブル | ~14,800 MB/s |
実験構成
実験インデックス
| # | 実験名 | 内容 | 状態 |
|---|---|---|---|
| Ex0 | disk-speed-bench | ダミーファイルを使ったシーケンシャル速度スペックチェック | 完了 |
| Ex1 | download-bench | ダウンロード速度を通した実操作計測 | 完了 |
| Ex2 | vibe-local-bench | Local LLM (Ollama qwen3) でのコーディング & コールドスタート調査 | 完了 |
| Ex3 | comfyui-imggen-bench (SDXL) | ComfyUI 画像生成 — SDXL Checkpoint 単体 | 完了 |
| Ex4 | comfyui-imggen-bench (AiCuty) | ComfyUI 画像生成 — AiCuty SDXL (Checkpoint+2LoRA+Upscaler) | 完了 |
| Ex5 | comfyui-video-bench (Wan 2.2) | ComfyUI 動画生成 — Wan 2.2 14B t2v(タイムアウトにより打ち切り) | 打ち切り |
| Ex6 | comfyui-video-bench (LTX 2.3) | ComfyUI 動画生成 — LTX 2.3 22B FP8 t2v / ia2v コールドスタートベンチ | 完了 (R4) |
| Ex7 | comfyui-pipeline-bench | Ex6 に統合(LTX 2.3 t2v → ia2v 連続実行) | 統合済み |
| Ex8 | qwen3tts-bench | Qwen3-TTS 長文音声合成実験 | 完了 |
| Ex9 | llm-jp-moshi-bench | llm-jp-moshi 高速音声応答実験 | 完了 |
| Ex10 | total-summary | 上記全体の所要時間・所要ストレージ総合レポート | 完了 |
Ex0: disk-speed-bench
256MB / 512MB / 1024MB のダミーファイルでシーケンシャルリード/ライト速度を計測。ストレージの基本スペックを確認。
Ex1: download-bench
HuggingFace / Ollama からのモデルダウンロード速度を実測。ネットワーク + ストレージ書き込みの複合スループットを計測。
Ex2: vibe-local-bench
ローカル LLM のモデルロード時間とコード生成時間を計測。5.2 GB モデルの読み込みでストレージ速度差を定量化。
Ex3: comfyui-imggen-bench (SDXL)
SDXL Checkpoint 単体 (6.46GB) での画像生成。コールドスタート vs ウォームスタートの差でストレージ影響を分離。
Ex4: comfyui-imggen-bench (AiCuty)
SDXL / WAI / AnimagineXL4 / Mellow Pencil の複数 Checkpoint を切り替えながら計測。 Checkpoint + LoRA × 2 + RealESRGAN アップスケールによる本格パイプライン。
Ex5: comfyui-video-bench (Wan 2.2)
Wan 2.2 14B (Dual-UNET ~34GB) で text-to-video & image-to-video を計測。 High/Low Noise の 2 つの UNET 切り替えでモデルスイッチングの影響も可視化。
Ex6: comfyui-video-bench (LTX 2.3)
LTX 2.3 (22B FP8 ~29GB + Gemma 3 12B + Upscaler) で動画生成。 単一 29GB チェックポイントのロードでストレージ速度差が直結。
Ex7: comfyui-pipeline-bench
Ex4 の Mellow Pencil 画像生成結果を Ex6 LTX 2.3 i2v に入力する融合パイプライン。 画像生成 → 動画生成の連続ワークフローでストレージ/VRAM の総合影響を計測。
Ex8: qwen3tts-bench
長文テキストの音声合成で初動時間(Time-to-First-Audio)とバッチ生成速度を計測。
Ex9: llm-jp-moshi-bench
15.6GB モデルの高速音声応答。モデルロード時間と応答レイテンシを計測。
Ex10: 総合レポート
Ex0〜Ex9 の全実験結果を統合し、所要時間・所要ストレージ容量の総合レポートを作成。
ComfyUI 起動パラメータとストレージ I/O の関係
ComfyUI の VRAM 管理方式はモデルのロード・オフロード挙動に大きく影響し、 ストレージ I/O パターンが変化します。本ベンチマークでは以下の 3 条件で計測。
| パラメータ | 挙動 | ストレージへの影響 |
|---|---|---|
--highvram |
モデルを VRAM に常駐。切り替え時もアンロードしない | 初回ロード後はストレージアクセス最小。VRAM 大容量環境向け |
| デフォルト | VRAM 不足時に自動的にモデルをオフロード | モデル切り替え時にストレージからの再ロードが発生 |
--lowvram |
積極的に VRAM を解放。処理ステップごとにモデルを移動 | ストレージ I/O が最も頻繁。低 VRAM 環境でのストレージ速度の重要性を可視化 |
96GB VRAM 環境 (RTX PRO 6000) では --highvram で全モデルを常駐可能。
6〜16GB VRAM 環境では --lowvram が必須で、ストレージ速度が体感に直結する。
分析手法: 「秒」だけでは見えないボトルネック
モデルロード時間の単純な秒数比較では、モデルサイズや GPU オーバーヘッドの影響が混在します。
本ベンチマークでは以下の手法でストレージ速度の寄与を分離・正規化して計測します。
sec/GiB 正規化メトリクス
モデルロード時間をモデルサイズ(GiB)で割ることで、 1 GiB あたりのロード秒数を算出。 異なるサイズのモデル間で実効ロード速度を公平に比較できます。
さらに、Ollama の内部計測値 runner_started_s(GPU 初期化時間)を差し引くことで、
純粋なディスク I/O スループット(IO est MB/s)を推定。
Raw ディスクベンチ結果との比率から、デシリアライゼーションや
メモリ確保のオーバーヘッドを定量化します。
Gen5 NVMe でこの比率がどう変化するかが重要な検証ポイント。
温度・電力リアルタイムモニタリング
ベンチマーク実行中に nvidia-smi を 10 秒間隔でバックグラウンド記録。
GPU 温度、消費電力、GPU 使用率、VRAM 使用量、クロック周波数、P-State を
時系列 CSV として保存します。
サーマルスロットリング(温度上昇によるクロック制限)が発生するタイミングを 特定し、ベンチマーク結果への影響を評価。 長時間連続負荷でストレージと GPU 双方の温度推移を可視化します。
SSD フラグメンテーション影響
NVMe SSD は HDD と異なりシークタイムがないため「フラグメンテーション無関係」とされがちですが、 論理ブロックの断片化は内部的なガベージコレクションや WAF(Write Amplification Factor)に影響 する可能性があります。
新品状態 vs 長期使用(大量のモデルダウンロード・削除を繰り返した状態)で シーケンシャルリード性能に差が出るかを検証。 AI ワークロードは数 GB 単位のファイルを頻繁に書き換えるため、実運用に近い条件です。
モデル切り替え & 初回ロードベンチマーク
実際の AI 開発では、用途に応じてモデルを何度も切り替えます。 10〜20 回連続でモデルのアンロード→ロードを繰り返すストレステストに加え、 異なるドライブ間でのモデル切り替え(例: D: → E: → D:)も計測。
初回ロード(コールドスタート)と 2 回目以降(OS キャッシュヒット時)の差、 さらにドライブ切り替え時のキャッシュ無効化による影響を分離します。 GPU 温度モニタリングのデータと照合し、 熱がロード性能に与える影響を定量化します。
生成物サンプル (実データ: R2/R3/R4)
RTX PRO 6000 Blackwell (98GB VRAM) で実際に生成されたコンテンツ。 同一シード・同一設定のためドライブ間で出力は同一。差が出るのは「生成開始までの時間」です。
Small Models (~7GB)
SDXL Checkpoint 単体。98GB VRAM に余裕で収まり、ストレージ差はほぼ出ない。
Cold start: 6-7s (差: ~1s)
Medium Models (~15GB)
LTX-Video 2B + T5-XXL。コールドスタートでストレージ速度差が顕在化。
Cold start: 8s vs 61s (差: 7.5x)
Large Models (~45GB)
LTX 2.3 22B FP8 (~29GB checkpoint + Gemma 3 12B + LoRAs + Upscaler = ~45GB)。最もストレージ速度が効くサイズ帯。
Cold start: D: 98s vs F: 288s = 2.9x difference
🖼 AiCuty SDXL — Small Models (~7GB) Checkpoint + 2 LoRA + Upscaler
AiCuty ワークフロー:
Animagine XL 4.0 + Niji Anime LoRA + Enchanting Eyes LoRA + RealESRGAN 4x Upscale
736×1128 / 28 steps / DPM++ 2M SDE Karras / CFG 5 → 2944×4512px 最終出力
ComfyUI: python main.py --listen 0.0.0.0 --port 8188 (default VRAM mode)
D: Gen5 NVMe (15.2s cold)
E: SATA SSD (17.3s cold)
D: Run 2 (13.2s median)
D: Run 3 (13.2s median)
🖼 SDXL Basic — Small Models (~7GB) Checkpoint Only
Animagine XL 4.0 (6.46GB) / 832×1216 / euler 28 steps / CFG 5
ComfyUI: python main.py --listen 0.0.0.0 --port 8188
D: Gen5 NVMe (6.1s cold)
E: SATA SSD (7.1s cold)
F: HDD (7.2s cold)
G: ICY DOCK (6.1s cold)
🎬 LTX-Video 2B — Medium Models (~15GB) Checkpoint + T5-XXL
LTX-Video 2B v0.9.5 (5.9GB) + T5-XXL FP16 (9.1GB) = ~15GB total
512×320 / 25 frames @24fps / euler 20 steps / CFG 1.0 → animated WEBP
ComfyUI: python main.py --listen 0.0.0.0 --port 8188
Cold start: D: 8.1s vs F: 60.9s = 7.5x difference
D: Gen5 NVMe (8.1s cold)
E: SATA SSD (37.4s cold)
F: HDD (60.9s cold)
G: ICY DOCK (11.4s cold)
🎬 Experiment: ComfyUI LTX-Video 2B 動画生成ベンチマーク(詳細)
モデル: LTX-Video 2B v0.9.5 (5.91 GB) + T5-XXL FP16 (9.12 GB)
設定: SamplerCustom euler 20steps, CFG=1.0, 512×320, 25フレーム @24fps
ワークフロー: workflows/ltx_2b_t2v_bench.json(CLIPLoader + ModelSamplingLTXV + LTXVScheduler)
ComfyUI: v0.16.4, PyTorch 2.10.0+cu128
条件: ドライブごとに ComfyUI を再起動(コールドスタート計測)
| D: (Gen5 NVMe) | E: (SATA SSD) | F: (HDD) | G: (ICY DOCK) | |
|---|---|---|---|---|
| Run 1 (コールドスタート) | 8.07s | 37.39s | 60.88s | 11.41s |
| Run 2 (VRAM キャッシュ残) | 7.31s | 7.30s | 7.32s | 7.32s |
| Run 3 (VRAM キャッシュ残) | 7.32s | 7.30s | 7.33s | 8.18s |
| 中央値 | 7.32s | 7.30s | 7.33s | 8.18s |
考察
- Run 1 のコールドスタートでストレージ差が明確に出た
- D: (Gen5 NVMe) 8.1s vs F: (HDD) 60.9s → 約7.5倍の差
- E: (SATA SSD) 37.4s → NVMe の約4.6倍
- G: (ICY DOCK) 11.4s → D: と近い(同じ 9100 PRO だが ICY DOCK 経由で若干遅い)
- Run 2-3 は
free_memoryでアンロード指示を出しているが、VRAM/システムキャッシュに残っているため差が出ない - 合計モデルサイズ ~15GB(LTX 2B + T5-XXL)のロードでストレージ速度差が顕在化
- 結論: 15GB 級のモデルロードでは Gen5 NVMe の優位性が明確。SATA SSD/HDD との差は 5〜8 倍
コード生成 (Ollama qwen3) — Small Models (~5GB)
Prompt: "じゃんけんゲームを HTML + JavaScript で作成してください"
R2 結果: 全ドライブで ~189 tok/s (8b) / ~445 tok/s (1.7b) — 98GB VRAM で差なし
qwen3:1.7b は日本語プロンプトに対してオランダ語で応答。小型モデルの多言語能力の限界を示す実例。
音声合成 (Qwen3-TTS) — R2/R3 計測済み
Qwen3-TTS-12Hz-1.7B-CustomVoice / HuggingFace/PyTorch 直接実行。
モデルロード + テキスト 5 種(S1/M1/M2/L1/L2)の合計時間を計測。
R2 中央値: D: 9.8s / E: 8.6s / F: 10.1s / G: 7.5s — モデルサイズが小さく(~1.7GB)ストレージ差は限定的。
音声サンプル: results/qwen3tts-bench/audio/
LTX 2.3 22B FP8 — Large Models (~45GB) コールドスタートベンチ (R4)
LTX 2.3 22B FP8 (~29GB) + Gemma 3 12B IT (~8.8GB) + LoRAs (~7.7GB) + Spatial Upscaler (~950MB) = ~45.5GB total
ドライブごとに ComfyUI を再起動し、t2v (コールドスタート) → ia2v (ウォームスタート) の連続実行で、
モデルロード時間とストレージ速度の関係を分離。
Cold start: D: 98s vs F: 288s = 2.9x difference
| D: (Gen5 NVMe) | E: (SATA SSD) | F: (HDD) | G: (ICY DOCK) | |
|---|---|---|---|---|
| t2v (コールドスタート) | 98.4s | 180.7s (1.8x) | 288.1s (2.9x) | 98.7s (1.0x) |
| ia2v (ウォームスタート) | 95.3s | 96.6s | 103.4s | 94.8s |
| 差分 (= ストレージ I/O) | 3.0s | 84.1s | 184.7s | 3.9s |
| 実効リード速度 (推定) | ~13 GB/s | ~542 MB/s | ~246 MB/s | ~11.7 GB/s |
考察
- 45GB 級モデルで HDD は約 3 分のロード遅延 — Gen5 NVMe との差は 184.7 秒(3 分超)
- ウォームスタート時は全ドライブほぼ同一(94〜103s) — 推論は GPU バウンド
- 差分 = 純粋なストレージ I/O: cold - warm の差から実効リード速度を推定
- Gen5 NVMe (D:) ~13 GB/s — safetensors のデシリアライゼーション + CUDA memcpy が律速
- SATA SSD (E:) ~542 MB/s — SATA 規格上限に近い
- HDD (F:) ~246 MB/s — シーケンシャルリードの物理限界
- ICY DOCK (G:) は D: とほぼ同等 — リムーバブルでも Gen5 帯域を維持
R4 生成動画サンプル (LTX 2.3 22B)
各ドライブで生成された動画。同一プロンプト・同一シードのため出力内容は同一 — 差が出るのはコールドスタート時間のみ。
D: t2v cold (98.4s)
E: t2v cold (180.7s)
F: t2v cold (288.1s)
G: t2v cold (98.7s)
D: ia2v warm (95.3s)
E: ia2v warm (96.6s)
F: ia2v warm (103.4s)
G: ia2v warm (94.8s)
全動画: GitHub
全生成物は Results-P8/ にモデルサイズ別に格納。
ComfyUI ワークフロー JSON も同梱。
クイックスタート
git clone https://github.com/aicuai/AICU-SSD-Bench
cd AICU-SSD-Bench
# 全実験一括実行
.\scripts\run_all_benchmarks.ps1 -Runs 3
Claude Code でセットアップ
トラブルシューティングや初期の実験環境のセットアップを高速に進めるため、 Claude Code を使って行います。無料で利用できますので、準備いただけますと幸いです。
本リポジトリの CLAUDE.md を読み込ませるだけで、環境構築からベンチマーク実行、結果分析まで AI が支援します。
# Claude Code を起動(CLAUDE.md を自動読み込み)
claude
この実験に参加して新しいデータを追加しませんか?
あなたの PC でベンチマークを実行し、コミュニティの比較データに貢献できます。
所要時間は約 10〜30 分。結果は自動的に集計され、このページに反映されます。
リポジトリをクローン
git clone https://github.com/aicuai/AICU-SSD-Bench
cd AICU-SSD-Bench
Ollama をインストール
ollama.com からダウンロード。各テスト対象ドライブにモデルを配置:
$env:OLLAMA_MODELS = "D:\ollama\models"
ollama pull qwen3:8b
ベンチマーク実行
全自動スクリプトが前提条件チェック、ダウンロード計測、ベンチマーク、クリーンアップまで一気に実行します。
.\scripts\run_all_benchmarks.ps1 -Fresh
結果を共有
スクリプト終了時に結果が自動送信されます。
手動で送信する場合:
# 結果 JSON を確認
cat results\bench_summary.json
送信されるデータ: CPU/GPU/RAM スペック、ストレージ型番(シリアル番号はハッシュ化)、ベンチマーク結果。個人を特定する情報は含まれません。
プライバシー保護と同一結果の回避
- ホスト名・SSD シリアル番号は SHA-256 でハッシュ化して送信されます。元の値を復元することはできません。
- 送信される情報は CPU/GPU/RAM の型番、ストレージの製品名・バスタイプ・ファームウェアバージョン、およびベンチマーク数値のみです。
- 個人を特定できる情報(ユーザー名、IP アドレス、ファイルパス等)は一切送信されません。
- SSD の UniqueId(EUI-64)をハッシュ化した device_id により、同一デバイスからの重複送信を検出・統合します。同じ環境で複数回実行しても、最新の結果のみが反映されます。
- 送信前に
results\bench_summary.jsonの内容を確認できます。送信は任意です(-SkipSubmitフラグで無効化可能)。
計測結果
計測データ読み込み中...
結論: AI のためには D ドライブこそ Gen5 を
Samsung 9100 PRO (Gen5 NVMe) は AI ワークロードのコールドスタートを最大 7.5 倍高速化する
10 種類の AI ワークロード(LLM ロード・コード生成・画像生成・動画生成・音声合成・音声対話)を 4 つのストレージ(Gen5 NVMe / SATA SSD / HDD / Gen5 リムーバブル)で横断計測した結果、 ストレージ速度が最も効くのは「モデルの初回ロード(コールドスタート)」であることが実証されました。
コールドスタート高速化
LTX-Video 2B (15GB)
D: 8.1s vs F: 60.9s
大型モデルでも差は明確
LTX 2.3 22B (45GB)
D: 98s vs F: 288s
書き込み速度
D: 2,535 MB/s vs F: 250 MB/s
(1024MB シーケンシャル)
推論速度への影響
VRAM ロード後は全ドライブ同一
~189 tok/s (qwen3:8b)
なぜ「D ドライブに Gen5」なのか
- OS ドライブ (C:) はバックグラウンド I/O と競合する — AI モデルの保存先は専用ドライブに
- モデル切り替えのたびにコールドスタートが発生 — AI 開発では 1 日に何十回もモデルを入れ替える
- モデルは大型化の一途 — 15GB (LTX-Video 2B) → 45GB (LTX 2.3 22B)。R4 実測: HDD で 3 分のロード遅延
- 8TB の大容量 — 全モデルを 1 台に集約、再ダウンロード不要
- 書き込みも高速 — 生成物保存・モデルダウンロード・学習チェックポイントで圧倒的な差
推論速度はストレージに依存しないことも確認済み。 つまり「速いストレージは無駄」ではなく、「待ち時間」を直接削減する最もコスパの高い投資先が D ドライブの Gen5 NVMe です。
補足: 予備調査(ノート PC での事前検証)
各実験の必要ディスク容量
G-Tune P6-I7G50 (RTX 4050 6GB / 32GB RAM) で事前調査。 VRAM 6GB の制約により SDXL 以上のモデルは動作不可 — AI ワークロードには十分な VRAM が必須。 全実験の合計必要容量: ~97GB。8TB の Samsung 9100 PRO なら全モデルを同時保持可能。
ディスク速度計測の知見
NVMe Gen4 環境でのシーケンシャル計測では、カタログ値(3,000〜3,500 MB/s)に対して実測は最高 1,340 MB/s。 AI アプリケーションは OS のファイル API 経由でモデルを読むため、「実効速度」がモデルロード時間を決定します。 OS ドライブはバックグラウンド I/O と競合するため、AI モデルは専用ドライブに配置すべき。
検証結果: AI ワークロードとストレージ速度
RTX PRO 6000 (96GB VRAM) + Samsung 9100 PRO (Gen5 NVMe) を含む 4 ドライブでの実測データに基づく結論。
検証済み: モデルのコールドスタートはストレージ I/O バウンド
LTX-Video 2B (~15GB) のコールドスタートで 最大 7.5 倍の差、 LTX 2.3 22B (~45GB) で 最大 2.9 倍の差 を実測。
| D: Gen5 NVMe | E: SATA SSD | F: HDD | G: ICY DOCK | |
|---|---|---|---|---|
| LTX 2B (15GB) | 8.1s | 37.4s (4.6x) | 60.9s (7.5x) | 11.4s (1.4x) |
| LTX 2.3 22B (45GB) | 98.4s | 180.7s (1.8x) | 288.1s (2.9x) | 98.7s (1.0x) |
ウォームスタート時(モデル VRAM 残存)は全ドライブ 95〜103s で差なし。
cold - warm の差分から実効リード速度を推定: Gen5 NVMe ~13 GB/s、SATA SSD ~542 MB/s、HDD ~246 MB/s。
ストレージ速度が効くのは「初回ロード」の瞬間 — そしてモデル切り替え・ComfyUI 再起動のたびにコールドスタートが発生します。
検証済み: 推論速度はストレージに依存しない
コード生成速度は全ドライブで ~189 tok/s (qwen3:8b) / ~445 tok/s (qwen3:1.7b) とほぼ同一。 画像生成のウォームスタートも全ドライブ 0.04s 前後で差なし。
モデルが VRAM に載った後は GPU 演算能力のみがボトルネック。 つまりストレージの影響は「モデルロード」に集中しており、高速ストレージの投資対効果はロード時間短縮に直結します。
実測: ディスク書き込み速度
1024MB シーケンシャルライト(R3 実測)で Gen5 NVMe は SATA SSD の 約 6 倍、HDD の 約 10 倍。
| D: Gen5 NVMe | E: SATA SSD | F: HDD | G: ICY DOCK |
|---|---|---|---|
| 2,535 MB/s | 434 MB/s | 250 MB/s | 2,530 MB/s |
生成物の保存、モデルのダウンロード・変換、学習チェックポイントの書き出しなど、 AI ワークフロー全体で書き込み速度も重要です。
Samsung 9100 PRO が AI ワークロードに最適な理由
実測データから、Gen5 NVMe (D:) vs SATA SSD (E:) vs HDD (F:) の差は コールドスタートで最大 7.5 倍、書き込み速度で最大 10 倍 と確認されました。
AI ワークフローでは 1 日に何度もモデルの切り替えや再起動が発生します。 画像生成では Checkpoint + LoRA + VAE で 10GB 超、動画生成では 20GB 超のモデルをロードします。 1 回あたり数十秒の短縮が、1 日の作業で数十分〜数時間の時間節約につながります。
Samsung 9100 PRO は PCIe Gen5 の帯域幅をフル活用し、シーケンシャルリード 14,800 MB/s、 8TB の大容量で複数の AI モデルを 1 台に集約可能。 AI クリエイターにとって「待たない AI 環境」を実現する最適なストレージです。
Samsung 9100 PRO 公式ページ の主張を検証
公式サイトに記載されている売り文句を、本ベンチマークの知見と照らし合わせて検証します。
| 公式の主張 | 評価 | 解説 |
|---|---|---|
| 最大 14,800/13,400 MB/s シーケンシャル読み出し/書き込み |
正しい | CrystalDiskMark 等の直接 NVMe コマンド計測での値であり、カタログスペックとして正確。 ただし OS のファイルシステム経由(AI アプリが使う通常の API)では、この値には到達しません。 本実験の R3 実測ではシーケンシャルライト 2,535 MB/s を記録。 カタログ値の 17〜19% ですが、これは OS のファイル API 経由の実効値であり、AI アプリケーションが実際に体感する速度です。 それでも SATA SSD (434 MB/s) の 約 6 倍、HDD (250 MB/s) の 約 10 倍。 |
| 990 PRO の 2 倍高速 | 概ね正しい | PCIe Gen4→Gen5 で理論帯域幅は 2 倍(約 7,000→14,000 MB/s)。 カタログスペック比較では正確です。 実効速度が線形に 2 倍になるかは、CPU/チップセットの PCIe レーン構成やコントローラ性能にも依存しますが、 大幅な向上は確実です。本実験でも Write 速度で SATA SSD の約 6 倍を実測。 |
| 最大 2,200K/2,600K IOPS ランダム読み出し/書き込み |
検証済み | ランダム IOPS は多数の小ファイルを並列処理する能力を示す指標。 AI モデルファイルは 数 GB の巨大な連続データであり、ロード時はシーケンシャルリードが支配的と思われますが、 ComfyUI のノード定義・設定ファイルの並列読み込みや、学習データセット(数百万枚の画像ファイル等)の読み込みなど、 ランダム IOPS が効く場面もあり得ます。 本実験の結果、AI モデルロードはシーケンシャルリードが支配的であることを確認。 |
| AI アプリケーションに即時ロード | 正しい | モデルロードは I/O バウンドであり、高速ストレージは確実に効果があります。 本実験で LTX-Video 2B (~15GB) のコールドスタートを実測: D: 8.1s vs F: 60.9s — Gen5 NVMe は HDD の 7.5 倍高速。 さらに LTX 2.3 22B (~45GB) では D: 98s vs F: 288s — HDD より 3 分速い。 ファイルシステム経由でもストレージ速度の優位性は明確に実証されました。 |
| 電力効率 49% 向上 990 PRO 比 |
妥当 | 公式データ: 990 PRO = 1,221 MB/s/W → 9100 PRO = 1,822 MB/s/W(2TB モデル)。 5nm コントローラにより、速度が 2 倍になっても消費電力は抑制。 ワークステーションでもスモールフォームファクタ PC でも発熱と消費電力の抑制は実用上重要です。 本実験では nvidia-smi で GPU の電力を 10 秒間隔で記録し、SSD 側の発熱影響がないことを確認。 |
| 8TB 大容量 | 事実 | AI モデルの巨大化が進む中、大容量は実用上の大きなメリット。 LLM 70B パラメータモデル(約 40GB)を 200 個、 Stable Diffusion の Checkpoint(2〜7GB)なら 1,000 個以上格納可能。 モデルの削除・再ダウンロードの手間が減り、切り替えコストがゼロに近づきます。 |
| 高度な熱制御 サーマルスロットリング抑制 |
確認済み | R3 ベンチマークスイート(Ex0〜Ex10 連続実行、約 1 時間の連続負荷)において、 Samsung 9100 PRO のサーマルスロットリングは観測されず、安定した性能を維持。 長時間の AI ワークロードでも速度低下なし。 |
用語集
| 用語 | 解説 |
|---|---|
| NVMe Gen5 | PCIe 5.0 接続の SSD 規格。最大転送速度は約 14,800 MB/s(Gen4 の約 2 倍、SATA の約 26 倍)。NVM Express 公式 |
| シーケンシャルリード | 連続したデータを読み出す速度。AI モデルのような巨大ファイルの読み込みに直結。 |
| VRAM | GPU 専用のビデオメモリ。AI モデルの推論にはモデル全体を VRAM に展開する必要がある。NVIDIA CUDA Toolkit |
| コールドスタート | モデルがメモリに存在しない状態からの起動。ストレージからの読み込みが必要。 |
| ウォームスタート | モデルが既にメモリにロードされた状態。ストレージアクセスは不要。 |
| tok/s (tokens per second) | LLM の推論速度指標。1 秒あたりに生成されるトークン(単語の断片)の数。 |
| GGUF | LLM モデルの量子化ファイル形式。Ollama が内部で使用。モデルロード時にヘッダーパース+テンソル展開が必要で、ディスク速度だけでなくデシリアライゼーション処理もボトルネックになる。GGUF 仕様 |
| sec/GiB | モデルロード時間をモデルサイズ (GiB) で割った正規化メトリクス。異なるサイズのモデル間でロード速度を公平に比較するための指標。本ベンチマーク独自の計測手法。算出スクリプト |
| I/O バウンド | ストレージの読み書き速度が処理全体のボトルネックになっている状態。 |
| GPU バウンド | GPU の演算能力がボトルネックになっている状態。ストレージ速度は影響しない。 |
| サーマルスロットリング | GPU や SSD の温度が閾値を超えた際にクロック周波数を自動的に下げて発熱を抑える保護機構。長時間ベンチマークでの性能低下の主要因。 |
| ページファイル / スワップ | メモリ不足時に OS がストレージ上に確保する仮想メモリ領域。高速 SSD ほど影響が軽微。 |
| LLM | Large Language Model(大規模言語モデル)。ChatGPT、Qwen、Llama 等のテキスト生成 AI。 |
| Ollama | ローカル PC で LLM を実行するためのオープンソースツール。モデル管理・推論 API を提供。公式サイト / GitHub |
| ComfyUI | 画像・動画生成 AI のワークフロー構築ツール。ノードベースで柔軟なパイプラインを構成可能。GitHub |
| LTX-Video | Lightricks 社の動画生成 AI モデル。ComfyUI で使用。8〜12GB のモデル + T5 エンコーダーを要し、ロード時間にストレージ速度が直結。GitHub |
| Qwen3-TTS | Alibaba Qwen チームの音声合成モデル。テキストから自然な音声を生成。GitHub |
| nvidia-smi | NVIDIA GPU の温度・電力・VRAM 使用量等をリアルタイムで取得する CLI ツール。本ベンチマークでは 10 秒間隔の時系列記録に使用。公式ドキュメント |
関連リンク
-
Impress AKIBA PC Hotline!
取材協力メディア
-
vibe-local でオフライン AI コーディング体験
窓の杜 AI Stream 連載
-
vibe-local (ochyai)
落合陽一氏によるオフライン AI コーディング環境
-
AICU Inc.
プロジェクト運営
-
Samsung 9100 PRO (Amazon)
テスト対象 Gen5 NVMe SSD — AI ワークロードに最適な大容量高速ストレージ
-
Samsung 9100 PRO (公式)
製品仕様・技術情報
ベンチマーク協力: Samsung Japan 様、Impress 様
ご協力ありがとうございます。