DiffusionGemmaをローカルで動かす手順とGPU要件

自分のPCやサーバーで最新の拡散型LLM(大規模言語モデル)を試したいものの、公式が提示する高いスペック要件に戸惑っていませんか。Googleが公開したDiffusionGemmaは、従来の自己回帰型モデルとは一線を画す「拡散型」のアーキテクチャを採用しており、推論速度において圧倒的なパフォーマンスを誇ります。
本記事では、AIエージェント専門メディアの視点から、DiffusionGemmaを自身の環境で動かすために必要なスペックの整理から、具体的な3つの実行手法、そして実務で遭遇しやすい詰まりどころまでを一気通貫で解説します。
目次
DiffusionGemmaの要点
DiffusionGemmaは、2026年6月10日に公開されたモデルで、Googleのオープンモデル「Gemma」シリーズの最新進化形です。ローカル環境への導入前に、以下の4つの要点を押さえておきましょう。
- 拡散型アルゴリズム(Block Diffusion):従来のLLMが1トークンずつ順番に生成するのに対し、ブロック単位で並列生成を行います。これにより、生成品質を維持したまま、推論のステップ数を劇的に削減し、最大4倍速の高速化を実現しています。
- 26B MoE(混合エキスパートモデル):モデル全体では26B(260億)のパラメータを持ちますが、推論時にはそのうち3.8B(38億)のみがアクティブ(稼働)するMoE構造を採用しています。これにより、巨大なモデルでありながら軽量な動作を可能にしています。
- ライセンス:商用利用も可能なApache 2.0ライセンスを採用しており、企業内でのプロトタイプ開発やサービス組み込みにも適しています。
- モデルID:Hugging Face等での正式名称は
google/diffusiongemma-26B-A4B-itです。
関連記事:【2026年最新】生成AIとは何か?AIエージェント時代に乗り遅れないためのビジネス活用ガイド

必要なGPUとメモリ
DiffusionGemmaをローカルで動かす際、最大の障壁となるのがビデオメモリ(VRAM)の容量です。また、拡散型ならではの驚異的な推論速度を享受するためには、適切なGPUの選定が欠かせません。
BF16は60GB超が必要
公式のHugging Face推論ノートブックやテクニカルレポートでは、BF16(Brain Floating Point 16)のフル精度で動作させることを前提としています。この設定でモデルをロードする場合、NVIDIA G4インスタンスやH100クラスといった「60GBを超えるVRAMを持つGPU」が要求されます。これは一般的なコンシューマ向けPC(RTX 4090等)の24GBという枠を大幅に超えており、クラウド環境やエンタープライズサーバー向けの要件と言えます。
量子化で18GBで動作
しかし、モデルを量子化(データ圧縮)することで、個人環境でも十分に実行可能になります。特に4bit(NVFP4)量子化を適用した場合、必要なVRAM容量は約18GBまで圧縮されます。これにより、最新のハイエンドGPUであるRTX 5090(32GB搭載)や、前世代のRTX 3090/4090(24GB搭載)であれば、OSのオーバーヘッドを含めても十分に余裕を持って動作させることができます。
また、本モデルの特筆すべき点はその「推論速度」にあります。最適化された環境下では、RTX 5090で700+ tok/s、H100に至っては1,000+ tok/sという、従来のLLMでは考えられなかった超高速なレスポンスが得られます。
| 精度 | VRAM目安 | 推論速度目安 | 想定GPU |
|---|---|---|---|
| フル精度 (BF16) | 約52GB | 1,000+ tok/s (H100) | NVIDIA H100 / G4 等 |
| INT8 | 約28GB | - | RTX 5090 / A6000 等 |
| 4bit (NVFP4/GGUF) | 約18GB | 700+ tok/s (RTX 5090) | RTX 5090 / 4090 / 3090 |
※VRAM目安はモデル単体のロード容量であり、コンテキスト長や推論時のワーク領域により変動します。
関連記事:Gemma 4とは?ビジネス導入ガイド|モデル選定・環境構築の全手順
方法1:Transformersでの実行
Python環境での開発において最も標準的なのが、Hugging Faceのtransformersライブラリを使用する方法です。最新のモデル構造をサポートするため、ライブラリのバージョン管理が重要になります。
インストール手順
まず、ベースとなるPyTorchと、マルチGPUや省メモリロードを支えるaccelerate、そして最新のモデル定義を含むtransformersをインストール・更新します。
pip install torch accelerate pip install -U transformers
モデルの読み込みと生成
DiffusionGemma専用のクラスである DiffusionGemmaForBlockDiffusion と、入力処理を担う AutoProcessor を使用します。
import torch from transformers import AutoProcessor, DiffusionGemmaForBlockDiffusion model_id = "google/diffusiongemma-26B-A4B-it" # BF16精度でのロード(VRAM 60GB超の環境向け) model = DiffusionGemmaForBlockDiffusion.from_pretrained( model_id, torch_dtype=torch.bfloat16, device_map="auto" ) processor = AutoProcessor.from_pretrained(model_id) # テキスト入力の準備 messages = [ {"role": "user", "content": "拡散型LLMのメリットを3つ教えてください。"} ] inputs = processor.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device) # 生成の実行 outputs = model.generate(**inputs, max_new_tokens=512) print(processor.decode(outputs[0], skip_special_tokens=True))
VRAM 60GB超の前提
上記の基本コードをそのまま実行すると、モデルはBF16精度でロードされます。そのため、標準的なデスクトップGPU(VRAM 8GB〜24GB)では、ロードの途中で「RuntimeError: CUDA out of memory」が発生して停止してしまいます。手元の環境がコンシューマ向けGPUである場合は、次に紹介する量子化版(方法2)への切り替えが必須となります。

方法2:Ollama・llama.cppでの実行
コミュニティが配布するGGUF量子化版を使えば、約18GBのVRAMでDiffusionGemmaを動かせます。RTX 5090クラスのコンシューマ向けGPUで動かす、最も現実的な方法です。高度なPythonスクリプトを書かずに、手軽にローカル推論環境を構築したい層に最適です。
GGUF版モデルの入手
コミュニティ有志(主にUnsloth等)によって配布されているGGUF形式のモデルファイルを使用します。Hugging Face上で「Unsloth DiffusionGemma GGUF」と検索し、自身のVRAM容量に合わせた量子化レベルを選択してください。一般的には、精度とサイズのバランスが良い「Q4_K_M」や、より軽量な「Q2_K」などが選択肢に入ります。
Ollamaでの実行
macOSやLinux、Windowsで人気の高い「Ollama」を利用する場合、まずGGUFファイルを読み込むための Modelfile を作成します。
Modelfileという名前のテキストファイルを作成し、FROM ./diffusiongemma-26b-q4_k_m.gguf(ファイル名はダウンロードしたものに合わせる)と記述します。- ターミナルで
ollama create diffusiongemma -f Modelfileを実行します。 ollama run diffusiongemmaで対話を開始します。
もし、起動時にモデルが読み込まれない、あるいは極端に動作が遅いといったトラブルが発生した場合は、Ollamaで動かないときの対処を参考に、GPUのパススルー設定等を見直してください。
llama.cppでの実行
より細かな制御を行いたい場合は、llama.cppを直接利用します。
1. リポジトリをクローンし、make(またはCMake)でビルドします。
2. ./main -m path/to/diffusiongemma-26b-q4_k_m.gguf -p "User prompt here" のように実行します。
GGUF形式はCPUでも動作可能ですが、DiffusionGemmaの高速性を活かすには、-ngl フラグでGPUにレイヤーをオフロードすることを強く推奨します。
LM Studioでの実行
GUIベースでさらに直感的に操作したい場合は、コミュニティ実行環境の選択肢として挙げられている「LM Studio」も有効です。アプリ内の検索窓からUnsloth配布のモデルを直接ダウンロードし、「Load Model」ボタン一つで推論を開始できます。設定画面からGPUオフロードを有効にすることで、RTXシリーズでの高速推論が容易に実現します。

方法3:vLLMでのサーバー構築
特定のアプリケーションや自作のAIエージェントから、API経由でDiffusionGemmaを呼び出したい場合には、推論サーバーとして運用するのが効率的です。
vLLMサーバーの構築
vLLMは、スループットの高さで定評のある推論エンジンです。DiffusionGemmaをバックエンドに据えて、既存のOpenAI用コードからそのまま叩ける互換サーバーを数行のコマンドで起動できます。
python -m vllm.entrypoints.openai.api_server \ --model google/diffusiongemma-26B-A4B-it \ --dtype bfloat16 \ --api-key your_api_key
サーバー起動後は、http://localhost:8000/v1 に対して標準的なOpenAIクライアントライブラリからリクエストを送ることが可能です。これにより、DifyやAnythingLLMといった外部ツールとの連携が非常にスムーズになります。
SGLang・MLXの選択肢
vLLM以外にも、用途に応じた公式対応の実行エンジンが存在します。
- SGLang:vLLMと同様、構造化出力や複雑なプロンプトの高速処理に特化しており、大規模な並列リクエストを捌く必要がある場合に適しています。
- MLX:Mac(Apple Silicon)ユーザーであれば、Appleが最適化したMLXフレームワークの利用がベストです。ユニファイドメモリを最大限に活用し、M2/M3 Max等のチップ上で驚くほど軽快に動作します。

よくある詰まりどころ
importエラーの対処
最も多いトラブルが、Pythonスクリプト実行時の ImportError です。「そんなクラスは存在しない」と言われる場合、原因のほとんどは transformers ライブラリのバージョンが、DiffusionGemmaのリリース(2026年6月)以前のものであることです。
必ず pip install -U transformers を実行し、最新バージョンであることを確認してください。
VRAM不足の対処
前述の通り、BF16フル精度でのロードは非常に高負荷です。GPUのメモリが足りない場合は、以下の対策を検討してください。
1. 方法2の量子化版(GGUF)を使用する。
2. from_pretrained 時に load_in_8bit=True や load_in_4bit=True(BitsAndBytesライブラリが必要)を指定してオンザフライ量子化を試みる。
3. 不要なバックグラウンドプロセス(ブラウザのタブ等)を閉じ、VRAMを解放する。
まとめ
DiffusionGemmaをローカル環境で動かすための鍵は、自身の保有する「VRAM容量」に基づいて、適切な実行方法と量子化レベルを選択することにあります。
- H100やA100など、60GB以上のVRAMがあるなら:Hugging Face TransformersでBF16フル精度の最高品質を体験しましょう。
- RTX 5090 / 4090などのコンシューマ向けGPUなら:Unsloth版のGGUF形式を用い、Ollama、llama.cpp、あるいはLM Studioで約18GBの現実的な運用を目指しましょう。RTX 5090であれば、秒間700トークンを超える驚異的なスピードを体感できるはずです。
- アプリ開発やAPI利用なら:vLLMやSGLangによるサーバー化が最適です。
- Macユーザーなら:Apple Siliconに最適化されたMLXでの実行一択です。
まずは自身のGPUリソースを確認し、最も導入障壁の低い方法からテストを開始してみてください。また、次世代のスタンダードであるGemma4との詳細な性能・構造の比較については、Gemma4との比較記事で詳しく解説しています。そちらも併せてチェックすることで、モデル選択の解像度がより高まるでしょう。
海外の最新AIニュースも、公式発表から日本語に要約してお届け。
「毎日忙しいけど、AIの最先端は知っておきたい」——そんな人のための1通です。




