Qwen3.6 Native MTP対応で12GB VRAMでも80tok/秒の衝撃

Qwen3.6 Nativeアーキテクチャを採用した35B A3Bモデルの「検閲解除版」が登場。MTP(Multi-Token Prediction)を完全保持したまま、12GB VRAMのGPUでも80トークン/秒の推論速度を達成し、ローカルLLMコミュニティを沸かせています。

📰 ソース:Reddit r/LocalLLaMA

📌 この記事のポイント

  • Qwen3.6 35B A3Bの「検閲解除版」がMTP(19層すべて)を完全保持してリリース。KLD 0.0015という極めて低い品質劣化で公開
  • llama.cppのMTP対応により、12GB VRAMで80トークン/秒・128Kコンテキストが実現。RTX 4090では262Kコンテキストで80+ tok/sの報告も
  • Safetensors・GGUF・NVFP4・GPTQ-Int4など多彩なフォーマットで即座に利用可能。Ollama・LM Studio・Janですぐに試せる

Qwen3.6 Native MTP保持モデルの何がすごいのか

青紫グラデーションのサーバー技術

2025年7月、r/LocalLLaMAで大きな注目を集めているのが、Qwen3.6 35B A3Bモデルの「uncensored heretic(検閲解除版)」です。このモデルはReddit上で244ポイントのスコアを獲得し、関連するMTP性能報告の投稿も合わせるとQwen3.6関連の話題がコミュニティを席巻している状態です。

MTP(Multi-Token Prediction)とは

MTPは、1回の推論ステップで複数のトークンを同時に予測する技術です。通常のLLMは1ステップで1トークンしか生成しませんが、MTPでは複数トークンを並列に予測することで、推論速度を劇的に向上させます。Qwen3.6には19層のMTPヘッドが搭載されており、今回のモデルではこの19層すべてが保持されている点が最大の特徴です。

「検閲解除」の意味

ここでいう「検閲解除(uncensored)」とは、オリジナルモデルに含まれる安全性フィルター(特定の質問に対して回答を拒否する仕組み)を緩和したバリアントです。リリース元の報告では「100回のテストのうち拒否は10回(10/100 Refusals)」とされています。これは研究・創作・特殊用途でのローカルLLM利用者に向けた選択肢として提供されています。

Qwen3.6 Nativeの技術詳細と性能分析

KLD 0.0015の意味

KLD(Kullback-Leibler Divergence)はオリジナルモデルとの出力分布の差異を測る指標です。今回公開されたモデルのKLD 0.0015という数値は、検閲解除処理によるモデル品質の劣化が極めて小さいことを意味します。つまり、安全性フィルターの調整以外では、オリジナルモデルとほぼ同等の能力を維持しているということです。

驚異的なローカル推論性能

r/LocalLLaMAの複数の投稿で報告されている性能データは、ローカルLLMの常識を覆すレベルです。

  • 12GB VRAM環境:llama.cppのMTP対応により、80トークン/秒かつ128Kコンテキストを実現(382ポイントの投稿で報告)
  • RTX 4090(24GB VRAM):TurboQuant + MTPで80+トークン/秒、262Kコンテキストを達成(123ポイントの投稿で報告)
  • AMD Mi50デュアル構成:AMD GPU環境でもMTPが機能することが確認(49ポイントの投稿で報告)

35B(350億パラメータ)モデルでありながらA3B(アクティブパラメータ約30億)というMoE(Mixture of Experts)アーキテクチャにより、実際の推論時に使用されるパラメータ数が大幅に抑えられています。これが12GB VRAMという手の届く環境での高速動作を可能にしています。

提供フォーマット

多様な実行環境に対応するため、以下のフォーマットで公開されています。

  • Safetensors:フル精度のモデルウェイト
  • GGUF:llama.cpp / Ollama / LM Studio向けの量子化フォーマット
  • NVFP4 / NVFP4 GGUF:NVIDIA GPU向け4bit浮動小数点量子化
  • GPTQ-Int4:GPTQ方式の4bit整数量子化

主要なQwen3.6関連モデルの比較

モデル 総パラメータ アクティブパラメータ MTP層 主な特徴
Qwen3.6 35B A3B(公式) 35B 約3B 19 公式リリース、安全性フィルターあり
Qwen3.6 35B A3B uncensored heretic 35B 約3B 19(全保持) 検閲緩和、KLD 0.0015
Qwen3.6 27B 27B 27B(Dense) あり MoEではなくDenseモデル、VRAM消費大

35B A3BはMoE構成のためアクティブパラメータが約3Bと軽量で、12GB VRAMで動作可能です。一方、27BのDenseモデルはRTX 4090クラスのGPUが推奨されますが、一部のユーザーからはArch Linuxのセットアップ支援(104ポイント)など実用的な活用報告も上がっています。

実践:ローカルで動かす手順

ステップ1:環境の確認

最低12GB VRAMのGPU(RTX 3060 12GB、RTX 4070以上推奨)を用意します。GGUF量子化版を使えばCPUオフロードとの組み合わせでより低スペックでも動作は可能ですが、MTPの恩恵を最大限受けるにはGPU推論が前提です。

ステップ2:ツールのインストール

最も手軽なのはOllamaです。以下のコマンドでインストールできます。

# Ollamaのインストール(macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh

# LM Studioの場合は公式サイトからGUIアプリをダウンロード
# Janの場合も公式サイトからインストーラーを取得

ステップ3:モデルのダウンロードと実行

Ollamaの場合、Hugging Face上で公開されているGGUFファイルをModelfileで指定して実行できます。LM Studioであれば、アプリ内の検索機能で「Qwen3.6 35B A3B」を検索し、対応するGGUFファイルを直接ダウンロード可能です。

ステップ4:MTP対応の確認

MTPを有効化するには、llama.cppの最新ビルド(MTP対応版)が必要です。Ollamaやllama.cppのリリースノートを確認し、MTPサポートが含まれるバージョンを利用してください。MTPが有効に機能している場合、推論速度の大幅な向上が体感できます。

ステップ5:量子化レベルの選択

VRAM容量に応じて適切な量子化レベルを選びます。12GB VRAMであればQ4_K_MやNVFP4が現実的な選択肢です。より高品質を求める場合はQ5_K_MやQ6_Kを選び、VRAMに余裕があるなら試してみてください。

🇯🇵 日本での活用ポイント

日本語での実用性

Qwenシリーズはアリババ(阿里雲)が開発しており、中国語・英語を中心に学習されていますが、日本語にも比較的対応しています。Qwen3.6は前世代のQwen2.5から多言語性能が向上しており、日本語での対話・文章生成・コード生成においても一定の品質が期待できます。ただし、日本語固有の微妙なニュアンスや敬語表現の精度については、実際に試して確認することを推奨します。

日本のエンジニアが活用できる具体シナリオ

  • ローカル開発アシスタント:12GB VRAMで動作するため、多くの開発者が所有するRTX 3060/4060 Ti以上のGPUで、クラウドAPIに頼らないコーディング支援が可能です。機密性の高い社内コードを外部に送信せずに済みます
  • 128Kコンテキストの活用:日本語の技術ドキュメントや仕様書をまるごと入力して要約・QAを行うユースケースで、長文コンテキストが威力を発揮します
  • プライベートなAIアシスタント:検閲解除版である特性を活かし、クリエイティブライティングやフィクション創作、セキュリティ研究(ペネトレーションテスト支援等)のような、商用APIでは制限されがちなタスクに利用可能です

日本の法規制との関連

検閲解除モデルの利用にあたっては、AIの出力内容に対する責任はユーザー側にあることを十分に認識する必要があります。2024年に成立したAI関連のガイドライン等を踏まえ、ローカルで動作させるからといって法的リスクがなくなるわけではありません。業務利用の場合は、社内のAI利用ポリシーとの整合性を確認することを強く推奨します。

💡 pikl編集部の視点

pikl編集部として、今回のリリースで最も注目しているのは「MTPの完全保持」という点です。従来、ファインチューニングや検閲解除処理を行うと、モデルの一部機能が損なわれることが少なくありませんでした。特にMTPのような推論最適化構造は、ウェイト調整の影響を受けやすいとされています。にもかかわらず、19層すべてのMTPを保持しつつKLD 0.0015という品質を実現している点は、ローカルLLMの「カスタマイズと品質の両立」における重要なマイルストーンだと考えます。

また、r/LocalLLAMAの反応から見えてくるのは、「12GB VRAMで実用的な35Bモデルが動く」ことへの驚きと興奮です。これはGPT-4クラスのAPIを契約せずとも、3〜5万円台のGPU1枚で高性能なLLMをプライベートに運用できることを意味します。特にRTX 4060 Ti 16GBやRTX 3060 12GBといった、日本でも広く普及しているGPUでの動作報告が相次いでいることは、「ローカルLLMは高価なGPUがないと使えない」という認識を覆すものでしょう。

今後の展望として、MTPの普及はローカルLLMの実用性をさらに加速させると考えます。80トークン/秒という速度は、リアルタイムの対話アシスタントとして十分に実用的です。Qwen3.6のMoEアーキテクチャとMTPの組み合わせは、今後他のモデル開発者にも影響を与えるでしょう。ただし注意点として、MTPの効果はタスクや入力パターンによって変動する可能性があり、公式ベンチマーク以外の環境では期待通りの速度が出ない場合もあります。導入前には自身のユースケースでの検証をお勧めします。

まとめ

  • MTP完全保持の検閲解除モデル:KLD 0.0015と極めて低い品質劣化で、19層すべてのMTPを保持。Safetensors・GGUF・NVFP4・GPTQ-Int4の多彩なフォーマットで即座に利用可能
  • 12GB VRAMで80tok/秒:MoEアーキテクチャ(35B総パラメータ/約3Bアクティブ)とMTPの組み合わせにより、手頃なGPUで驚異的な推論速度を実現
  • ローカルLLMの新たなスタンダード:Ollama・LM Studio・Janなどの主要ツールで手軽に導入でき、プライバシーを保ちながら高性能AIを自前で運用できる時代に

関連ツール

ツール名 特徴 対応OS GGUFサポート
Ollama CLIベースで軽量・高速。APIサーバー機能内蔵 macOS / Linux / Windows
LM Studio GUIで直感的に操作可能。モデル検索・ダウンロード機能搭載 macOS / Linux / Windows
Jan オープンソースのデスクトップアプリ。チャットUI付き macOS / Linux / Windows

よくある質問

Q: Qwen3.6 35B A3Bを動かすのに必要な最低スペックは?

r/LocalLLaMAの報告によると、12GB VRAMのGPU(RTX 3060 12GBなど)でGGUF量子化版を使用することで、80トークン/秒での推論が可能です。CPU併用のオフロード構成であればより低スペックでも動作しますが、MTPの恩恵を受けるにはGPU推論が推奨されます。

Q: MTP(Multi-Token Prediction)はどのツールで使えますか?

現時点では、llama.cppの最新MTP対応ビルドが必要です。Ollamaは内部でllama.cppを使用しているため、MTP対応バージョンがリリースされれば利用可能になります。各ツールの最新リリースノートで対応状況を確認してください。

Q: 「検閲解除(uncensored)」モデルは安全ですか?

検閲解除モデルは安全性フィルターが緩和されているため、不適切な出力を生成する可能性があります。ローカルで動作するため外部への情報漏洩リスクは低いですが、出力内容の利用責任はユーザーにあります。業務利用の場合は社内ポリシーとの整合性を確認してください。

Q: Qwen3.6は日本語に対応していますか?

Qwenシリーズは多言語対応しており、日本語での対話・文章生成にも一定の品質で対応しています。ただし、英語・中国語と比べると精度に差がある場合があるため、日本語での具体的な性能は実際に試して確認することを推奨します。

Q: NVFP4とGPTQ-Int4のどちらを選ぶべきですか?

NVFP4はNVIDIA GPUに最適化された4bit浮動小数点量子化で、対応GPUであれば高速動作が期待できます。GPTQ-Int4はより汎用的な4bit整数量子化です。NVIDIA GPU環境であればまずNVFP4を試し、互換性の問題があればGPTQ-Int4を使用するとよいでしょう。

← 前の記事
ChatGPT 5.5 Pro体験談が話題─LLM委任のリスクも浮上
次の記事 →
Teaching Claudeが示すAI協業の新常識

コメントする