Qwen3.6 Native MTP対応で推論2.5倍速の衝撃

Qwen3.6 Nativeの非検閲版がMTP(Multi-Token Prediction)全15レイヤーを保持したまま公開され、推論速度が最大2.5倍に高速化。ローカルLLM界隈が大きく盛り上がっています。

📰 ソース:Reddit r/LocalLLaMA

📌 この記事のポイント

  • Qwen3.6 27Bの非検閲版(heretic v2)がMTP全15レイヤーを保持した状態で公開。KLDは0.0021と元モデルからの乖離が極小
  • MTPによるSpeculative Decodeで推論速度が最大2.5倍に高速化。RTX 3090 Ti単体でも実用的な速度を実現
  • Safetensors・GGUF・NVFP4の3フォーマットで提供され、Ollama・LM Studio・llama.cppなど幅広い環境で利用可能

Qwen3.6 Native非検閲版の何がすごいのか

青紫グラデの量子サーバーアート

2025年7月、Reddit r/LocalLLAMAコミュニティで大きな話題となっているのが「Qwen3.6 27B uncensored heretic v2 Native MTP Preserved」です。このモデルは、Alibabaが開発したQwen3.6 Nativeの27Bパラメータモデルをベースに、検閲(refusal)を大幅に除去しつつ、元モデルの品質とMTP機能をほぼ完全に保持したファインチューニング版です。

驚異的なKLDスコア

このモデルの特筆すべき点は、KLD(Kullback-Leibler Divergence)がわずか0.0021という数値です。KLDはファインチューニング前後でモデルの出力分布がどれだけ変化したかを測る指標で、値が小さいほど元モデルの知識や能力を維持していることを意味します。0.0021という数値は、検閲除去を行いながらも元モデルの能力をほぼ損なっていないことを示しています。

検閲除去の精度

100件のテストケースに対してRefusal(回答拒否)はわずか6件。元のQwen3.6モデルが安全性フィルタにより回答を拒否していた多くのケースで、このモデルは応答を返すようになっています。ローカルLLMを研究やクリエイティブな用途で使いたいユーザーにとって、この自由度は大きな魅力です。

Qwen3.6 Nativeの技術詳細とMTPの仕組み

MTP(Multi-Token Prediction)とは

MTPは、従来のLLMが1トークンずつ生成するのに対し、複数トークンを同時に予測する技術です。Qwen3.6 Nativeには15のMTPレイヤーが組み込まれており、これをSpeculative Decode(投機的デコード)と組み合わせることで、推論速度を劇的に向上させます。

仕組みとしては、MTPレイヤーが次の複数トークンを一度に予測し、メインモデルがそれらを検証します。予測が正しければまとめて採用されるため、実質的な生成速度が大幅にアップします。重要なのは、出力品質は通常のデコードとまったく同じである点です。Speculative Decodeは「正確性を犠牲にせずに速度を上げる」手法だからです。

速度面のインパクト

r/LocalLLAMAで1,092ポイント(記事作成時点)を獲得したスレッドによれば、MTPを活用したQwen3.6 27Bの推論速度は最大2.5倍に達するとのことです。さらに、48GBのVRAMで262kトークンのコンテキスト長を実現できるという報告もあり、エージェント型コーディングアシスタントとしてローカル環境での実用性が一気に高まっています。

MTP保持の技術的な意義

従来、ファインチューニングを行うとMTPレイヤーが破損・劣化するケースが一般的でした。今回の「heretic v2」では、全15のMTPレイヤーが完全に保持・保全されている点が大きな技術的成果です。これにより、非検閲モデルでありながらMTPによる高速推論の恩恵をフルに受けられます。

提供フォーマット

  • Safetensors:Pythonベースの推論フレームワーク(vLLM、transformers等)向け
  • GGUF:llama.cpp、Ollama、LM Studio、Jan等のローカル推論ツール向け
  • NVFP4:NVIDIA GPU向けの4bit量子化フォーマット

主要ローカルLLMとの比較

項目 Qwen3.6 27B(heretic v2) Qwen3.6-35B-A3B(MoE) Llama 3.1 70B
パラメータ数 27B(Dense) 35B(Active 3B) 70B(Dense)
MTPレイヤー数 15(完全保持) MTP graft対応(コミュニティ版) 非搭載
MTPによる速度向上 最大2.5倍 報告あり(公式ドキュメント参照)
検閲レベル 6/100 refusals ベースモデル準拠 ベースモデル準拠
KLD(元モデルとの乖離) 0.0021
必要VRAM目安(量子化あり) 16〜24GB(Q4〜Q8) 6〜12GB 40GB以上

※VRAM目安はコンテキスト長やバッチサイズにより変動します。詳細は各ツールの公式ドキュメントをご確認ください。

実践:Qwen3.6 27Bをローカルで動かす方法

ここでは、代表的な3つのツールでの導入手順を紹介します。

ステップ1:環境の確認

最低でもVRAM 16GB以上のGPUを推奨します。r/LocalLLAMAのガイドでは、RTX 3090 Ti(24GB VRAM)での単体動作が実証されています。Q4量子化版であれば16GB VRAMでも動作する可能性がありますが、コンテキスト長は制限されます。

ステップ2:Ollamaで動かす場合

# Ollamaのインストール(公式サイトからダウンロード)
# GGUFモデルをOllamaに登録して実行
ollama run qwen3.6-27b

Ollamaは最も手軽にローカルLLMを試せるツールです。GGUF形式のモデルファイルをダウンロードし、Modelfileを作成して登録します。MTP対応状況はOllamaのバージョンにより異なるため、公式リリースノートを確認してください。

ステップ3:LM Studioで動かす場合

LM StudioはGUIベースでモデルを検索・ダウンロード・実行できるデスクトップアプリです。アプリ内の検索バーから「Qwen3.6 27B」で検索し、GGUF版をダウンロードするだけで利用を開始できます。

ステップ4:llama.cppでMTPを有効化

MTPによる高速推論を最大限活用するにはllama.cppが現時点で最も成熟しています。r/LocalLLAMAの投稿では、llama.cppのNextN MTP Speculative Decodeオプションを使って2.5倍の速度向上を実現した手順が共有されています。

# llama.cppをビルド後、MTPを有効にして実行
./llama-server -m qwen3.6-27b.gguf --n-gpu-layers 99 -ntp 15

※コマンドオプションはllama.cppのバージョンにより異なります。最新のドキュメントを必ず参照してください。

ステップ5:Janで動かす場合

Janはオープンソースのデスクトップチャットアプリで、OpenAI互換のローカルAPIサーバーとしても機能します。GGUF形式のモデルをインポートして利用できるため、既存のワークフローにローカルLLMを組み込みたい場合に便利です。

🇯🇵 日本での活用ポイント

日本語対応状況

Qwenシリーズは元々Alibabaが開発しており、中国語・英語に加えて日本語のデータも学習コーパスに含まれています。Qwen3.6 Nativeも日本語での対話・文章生成に対応しており、ローカルで動かせる日本語対応LLMとしては有力な選択肢の一つです。ただし、具体的な日本語ベンチマーク結果については公式ドキュメントでの確認を推奨します。

日本のエンジニアにとっての具体的な活用シーン

  • コーディングアシスタント:262kコンテキストとMTPによる高速推論を活かし、大規模なコードベースを読み込んでのコーディング支援が可能です。API費用を気にせずローカルで完結できる点は、個人開発者やスタートアップにとって大きなメリットです。
  • 社内ドキュメントのQ&A:機密情報を社外に出さずにRAG(検索拡張生成)を構築できます。日本企業のデータガバナンス要件を満たしつつ、AI活用を進めるアプローチとして現実的です。
  • クリエイティブ・研究用途:非検閲版であるため、フィクション執筆やセンシティブなトピックの学術研究など、商用APIでは制限がかかるユースケースにも対応できます。
  • エッジAI・オフライン環境:インターネット接続なしで動作するため、工場や医療現場など、ネットワーク制約のある環境でのAI活用にも道が開けます。

コストとハードウェア調達

日本国内でRTX 3090 Ti相当のGPUは中古市場で10〜15万円程度で入手可能です(2025年7月時点の概算。販売サイトでの確認を推奨します)。RTX 4090であれば24GB VRAMでより快適に動作しますが、20〜30万円の投資が必要です。r/LocalLLAMAでは「モデルを動かすための最安構成」を議論するスレッドも立っており、コスト最適化の関心の高さがうかがえます。

月額数千〜数万円のAPI費用と比較すると、数ヶ月で元が取れる計算になるケースもあります。特にエージェント型のコーディング作業では大量のトークンを消費するため、ローカル実行のコストメリットは大きいです。

💡 pikl編集部の視点

pikl編集部は、今回のQwen3.6 Nativeのuncensored版+MTP保持という組み合わせが、ローカルLLMの実用性における重要なマイルストーンであると考えます。これまで、ファインチューニングで検閲を除去すると、MTPのような高度な推論最適化機能が壊れてしまうことが課題でした。KLD 0.0021という極小の乖離でMTP全15レイヤーを保持したまま検閲除去を達成した今回の成果は、「カスタマイズと性能の両立」が可能であることを実証したと言えます。

特に注目すべきは、r/LocalLLAMAで1,092ポイントを獲得した「2.5x faster inference」のスレッドに象徴されるように、MTPがローカルLLMの速度問題を実質的に解決しつつある点です。これまでローカルLLMは「遅い」「レイテンシが高い」という理由でAPI利用に比べて敬遠されがちでした。しかし、MTPによる2.5倍の速度向上は、エージェント型のコーディングワークフロー(反復的にLLMを呼び出す処理)において決定的な差をもたらします。Claudeの有料APIを使い続けるか、初期投資をしてローカルで完結するか――この判断の天秤が、MTPによって大きくローカル側に傾いたと考えます。

一方で注意すべき点もあります。非検閲モデルは自由度が高い反面、出力内容の安全管理はすべてユーザーの責任となります。日本では企業内でのAI利用に関するガイドラインを策定する動きが広がっていますが、非検閲モデルを業務で使う場合は、出力フィルタリングやログ管理の仕組みを別途設けることが重要になるでしょう。また、Qwen3.6のMoE版(35B-A3B)にMTPをgraftする試みも進んでおり、Active 3Bという少ないパラメータで高速動作するモデルとMTPの組み合わせは、VRAMが限られた環境にとって今後さらに重要な選択肢になると考えます。

まとめ

  • 品質維持の非検閲化:KLD 0.0021という極小の乖離で、Qwen3.6 27Bの能力を維持したまま検閲を除去。100件中6件のみの回答拒否という高い自由度を実現
  • MTP保持で推論2.5倍速:全15のMTPレイヤーが完全に保持され、Speculative Decodeにより推論速度が最大2.5倍に。ローカルでのエージェント型コーディングが実用圏内に
  • 幅広いフォーマット対応:Safetensors・GGUF・NVFP4の3形式で提供され、Ollama・LM Studio・Jan・llama.cppなど主要なローカル推論環境で即座に利用可能

関連ツール

ツール名 特徴 MTP対応 URL
Ollama CLIベースで手軽にローカルLLMを実行 バージョンにより異なる(公式確認推奨) ollama.com
LM Studio GUIで検索・DL・実行が完結するデスクトップアプリ バージョンにより異なる(公式確認推奨) lmstudio.ai
Jan オープンソースのチャットアプリ+ローカルAPIサーバー 公式ドキュメント参照 jan.ai
llama.cpp C++製の高速推論エンジン。MTP Speculative Decodeに対応 ✅ 対応 GitHub

よくある質問

Q: Qwen3.6 27Bを動かすには最低でもどのくらいのGPUが必要ですか?

Q4量子化版であれば16GB VRAMのGPUで動作する可能性がありますが、快適に使うにはRTX 3090 Ti(24GB)以上を推奨します。r/LocalLLAMAではRTX 3090 Ti単体での動作ガイドが共有されています。最安構成の情報はr/LocalLLAMAの該当スレッドも参考にしてください。

Q: MTP(Multi-Token Prediction)を有効にすると出力品質は変わりますか?

Speculative Decodeの仕組み上、出力品質は通常のデコードとまったく同一です。MTPレイヤーが予測した候補をメインモデルが検証し、正しいものだけを採用するため、生成結果に差は出ません。純粋に速度だけが向上します。

Q: Qwen3.6 Nativeは日本語で使えますか?

Qwenシリーズは多言語対応しており、日本語での対話や文章生成に対応しています。ただし、英語や中国語に比べると日本語の性能は公式ベンチマークで確認することを推奨します。

Q: 非検閲モデルを使う際の注意点は?

出力内容の安全管理はすべてユーザーの責任となります。業務利用の場合は、出力フィルタリングの仕組みを別途構築するか、社内ガイドラインに沿った運用ルールを設けることを推奨します。特に日本企業では、AI利用に関する内部規程との整合性を確認してください。

Q: OllamaとLM Studio、どちらで動かすのがおすすめですか?

コマンドライン操作に慣れている方にはOllamaが手軽です。GUIで視覚的に操作したい場合はLM Studioが便利です。MTPによる高速推論を最大限活用したい場合は、llama.cppを直接使う方法が現時点では最も確実です。

← 前の記事
Qwen 3.6 27Bが2.5倍高速化!ローカルAIコーディングの実力
次の記事 →
SQLiteが米議会図書館の推奨保存形式に選ばれた理由

コメントする