Qwen3.5 Native MTP保持版が登場！785個のMTPを完全保持

Qwen3.5 35B A3Bの検閲解除・MTP完全保持版がリリースされました。785個のMulti-Token Prediction（MTP）ヘッドをすべて保持した状態で、Safetensors・GGUF・NVFP4・GPTQ-Int4など多様なフォーマットで公開。ローカルLLM界隈で大きな注目を集めています。

📰 ソース：Reddit r/LocalLLaMA

📌 この記事のポイント

Qwen3.5 35B A3B（MoEモデル）の検閲解除版が、785個のMTPヘッドを完全保持した状態でリリース
27Bモデル（15MTP保持版）もあわせて公開、用途やVRAMに応じた選択肢が広がる
GGUF・NVFP4・GPTQ-Int4など複数の量子化フォーマットに対応し、ローカル実行のハードルが低下

Qwen3.5 Native MTP保持版とは何か

2025年7月、Reddit r/LocalLLaMAコミュニティにてスコア330を獲得した投稿が大きな話題になっています。Alibaba Cloudが開発したQwen3.5シリーズの35Bパラメータ・MoE（Mixture of Experts）モデルについて、「uncensored heretic」と銘打った検閲解除版が、ネイティブのMulti-Token Prediction（MTP）ヘッドをすべて保持したまま公開されたというものです。

MTP（Multi-Token Prediction）の重要性

通常のLLMは1トークンずつ予測を行いますが、MTPは一度に複数トークンを予測する仕組みです。これにより推論速度が大幅に向上する可能性があります。Qwen3.5 35B A3Bモデルには785個のMTPヘッドが搭載されていますが、量子化やファインチューニングの過程でこれらが失われるケースが多くありました。今回のリリースでは、これらを「完全に保持・保全」している点が最大の特徴です。

「uncensored heretic」とは

「heretic（異端者）」はローカルLLMコミュニティで使われる検閲解除ファインチューンの名称です。商用APIモデルに施されている出力制限を解除し、ユーザーが自由にモデルの能力を活用できるようにしたものを指します。制約のないモデルをローカルで動かしたいというニーズに応えるものです。

Qwen3.5 Nativeの詳細分析：MTPとは何が違うのか

35B A3Bモデルの構造

Qwen3.5 35B A3Bは、総パラメータ数35B（350億）のMoEモデルで、推論時にアクティブになるパラメータはおよそ3B（30億）です。この「A3B」の表記はActive 3 Billionを意味し、巨大な知識容量を持ちながら、実際の計算コストは3Bモデル並みに抑えられるという利点があります。

785個のMTPヘッドが保持されていることの意義は大きく、MTP対応の推論エンジン（vLLMやllama.cppのMTP対応ビルドなど）を使用することで、speculative decodingと同様の速度向上効果が期待できます。MTPヘッドが失われた量子化モデルでは、この高速化の恩恵を受けられません。

27Bモデルも同時リリース

r/LocalLLaMAでスコア57を獲得した別の投稿によれば、Qwen3.5 27Bモデル（非MoE、密なアーキテクチャ）の検閲解除版も、15個のMTPヘッドを完全保持した状態で公開されています。35B A3Bの785MTPと比べると数は少ないですが、これは元のモデルアーキテクチャにおけるMTPヘッド数の違いによるものです。

対応フォーマット

今回のリリースは多数のフォーマットをカバーしています：

Safetensors：フル精度での利用、ファインチューニングのベースに最適
GGUF：llama.cpp系ツール（Ollama、LM Studio、Jan等）で利用可能
NVFP4：NVIDIA GPU向け4bit浮動小数点量子化
NVFP4 GGUF：NVFP4のGGUFフォーマット版
GPTQ-Int4：GPU推論向けの4bit整数量子化

モデルバリエーション比較

項目	Qwen3.5 35B A3B	Qwen3.5 27B
アーキテクチャ	MoE（Mixture of Experts）	Dense（密）
総パラメータ数	約35B	約27B
アクティブパラメータ	約3B	約27B（全パラメータ）
MTPヘッド数（保持済み）	785個	15個
VRAM目安（GGUF Q4）	比較的少量（公式ドキュメントで要確認）	16〜20GB程度（公式ドキュメントで要確認）
推論速度の優位性	MoE + 大量MTPで高速化が期待	密モデルの安定した品質
対応フォーマット	Safetensors, GGUF, NVFP4, GPTQ-Int4	Safetensors, GGUF, NVFP4, GPTQ-Int4

実践：ローカルで動かす方法

Qwen3.5 Native MTP保持版をローカル環境で試すための基本的な手順を紹介します。

ステップ1：環境の確認

GGUF形式で利用する場合、最低でも8GB以上のVRAMを持つGPU、またはCPU推論であれば16GB以上のRAMが推奨されます。MoE版（35B A3B）はアクティブパラメータが3Bのため、27Bモデルより少ないリソースで動作する可能性があります。正確な必要VRAM量は、使用する量子化レベルに応じて公式リポジトリを確認してください。

ステップ2：ツールの選択

以下のツールがGGUFモデルの実行に対応しています：

Ollama：CLIベースでシンプルに動かしたい場合に最適。モデルのインポートが容易
LM Studio：GUIで直感的に操作したい場合。GGUF検索・ダウンロード機能内蔵
Jan：オープンソースのChatGPT風UI。ローカルモデルの管理が便利

ステップ3：モデルのダウンロード

Hugging Faceのリポジトリから、目的に合った量子化フォーマットのファイルをダウンロードします。VRAM節約を優先するならQ4_K_MやQ5_K_M、品質重視ならQ8_0を選択するのが一般的です。

ステップ4：Ollamaでの実行例

# GGUFファイルからModelfileを作成
echo 'FROM ./qwen3.5-35b-a3b-heretic.Q4_K_M.gguf' > Modelfile

# Ollamaにモデルを登録
ollama create qwen35-heretic -f Modelfile

# 実行
ollama run qwen35-heretic

ステップ5：MTP対応推論の確認

MTPヘッドの恩恵を最大限に受けるには、MTP対応の推論エンジンを使用する必要があります。llama.cppの最新ビルドやvLLMがMTPをサポートしているか、各プロジェクトのリリースノートを確認してください。MTP非対応の推論エンジンでもモデル自体は動作しますが、速度向上の効果は得られません。

🇯🇵 日本での活用ポイント

日本語対応と実用シナリオ

Qwen3.5シリーズはAlibaba Cloud（阿里雲）が開発しており、中国語・英語に加えて日本語を含む多言語に対応しています。Qwenシリーズは過去のバージョンから日本語の処理能力が比較的高いことで知られており、日本語での文章生成、要約、コード生成などの用途に活用できます。ただし、検閲解除版（heretic）の日本語品質については、元のファインチューニングが主に英語データで行われている可能性があるため、実際に試して確認することをお勧めします。

ビジネスでの具体的な活用シーン

社内ドキュメントの分析・要約：機密情報を外部APIに送信せず、ローカルで処理できるため、日本企業の情報セキュリティポリシーに適合しやすい
コーディング支援：35B A3BモデルはMoEアーキテクチャにより、比較的少ないVRAMで大規模モデルの知識量を活用したコード生成が可能
チャットボットのプロトタイプ開発：検閲解除版は出力制限がないため、カスタマーサポート用途のチューニングベースとして柔軟に利用できる
創作支援：小説や脚本など、制限なしの自由な文章生成が求められるクリエイティブ用途

日本のローカルLLM環境との相性

日本でローカルLLMを運用する場合、NVIDIA RTX 4090（24GB VRAM）やRTX 3090が主要なハードウェアとなります。Qwen3.5 35B A3BはMoEモデルのため、アクティブパラメータが約3Bと軽量であり、Q4量子化を使用すれば24GB VRAM環境でも十分に動作する可能性が高いです。コストパフォーマンスの観点から、日本の個人開発者や小規模チームにとって魅力的な選択肢と言えます。

なお、検閲解除モデルの利用にあたっては、生成されるコンテンツの責任はユーザー側にあります。特に商用利用の場合、Qwen3.5のライセンス条件を公式リポジトリで確認してください。

💡 pikl編集部の視点

今回のリリースで最も注目すべきは、「MTPヘッドの完全保持」が一つの価値として明確に認識され始めている点だと考えます。これまでのローカルLLMコミュニティでは、量子化時のビット数やモデルサイズの議論が中心でしたが、「推論速度を左右するアーキテクチャ要素をどこまで保持できるか」という新たな評価軸が生まれつつあります。r/LocalLLaMAでスコア330を獲得した事実は、コミュニティがこの観点を高く評価していることを示しています。

また、MoEモデルとMTPの組み合わせは、ローカルLLMの実用性を一段階引き上げる可能性を持っていると考えます。35Bの知識容量を持ちながらアクティブ3Bの計算コストで動作し、さらに785個のMTPヘッドによる推論高速化が加わるという構成は、消費者向けGPU（RTX 4070〜4090クラス）で「実用的な速度で賢いモデルを動かす」という目標に大きく近づくものです。類似のMoEモデルであるMixtralやDeepSeek系と比較しても、MTPヘッドの数（785個）は突出しており、MTP対応推論エンジンの成熟とともに速度面での優位性が顕著になるでしょう。

日本市場にとっての意味として、pikl編集部はQwenシリーズのCJK言語処理能力の高さに注目しています。MetaのLlamaシリーズやGoogleのGemmaと比較して、Qwenは中国語ベースのトレーニングデータの豊富さから、漢字文化圏の言語処理において一定の強みを持つと考えます。ただし「uncensored heretic」版はファインチューニングにより元のモデルから挙動が変化している可能性があるため、日本語タスクでの品質は個別に検証する必要があります。MTPヘッドの恩恵を受けるには推論エンジン側の対応も必要なため、現時点ではllama.cppやvLLMのMTPサポート状況を確認した上で導入を判断することを推奨します。

まとめ

MTP完全保持が新たな価値基準に：Qwen3.5 35B A3Bの785個のMTPヘッドをすべて保持した検閲解除版がリリースされ、量子化モデルの品質評価に「MTP保持」という新しい軸が加わった
MoE + MTPによる実用性の向上：アクティブ3Bの軽量さと35Bの知識容量、そしてMTPによる推論高速化の組み合わせにより、消費者向けGPUでの実用的なローカルLLM運用が現実的になりつつある
多様なフォーマット対応：Safetensors・GGUF・NVFP4・GPTQ-Int4と幅広いフォーマットで公開されており、Ollama・LM Studio・Janなど主要ツールですぐに試せる環境が整っている

ツール名	特徴	対応OS	公式サイト
Ollama	CLIベースで軽量・高速。GGUFモデルのインポートが簡単	macOS, Linux, Windows	ollama.com
LM Studio	GUI操作でモデル検索〜実行まで完結。初心者向け	macOS, Linux, Windows	lmstudio.ai
Jan	オープンソースのChatGPT風UI。ローカルモデル管理に強み	macOS, Linux, Windows	jan.ai

よくある質問

Q: MTP（Multi-Token Prediction）とは何ですか？

MTPは、一度に複数のトークンを予測する仕組みです。通常のLLMが1トークンずつ順番に生成するのに対し、MTPヘッドを活用することで推論速度の向上が期待できます。ただし、MTPの恩恵を受けるには推論エンジン側がMTPに対応している必要があります。

Q: Qwen3.5 35B A3Bを動かすのに必要なスペックは？

MoEアーキテクチャでアクティブパラメータが約3Bのため、Q4量子化のGGUFであれば8〜16GB程度のVRAMで動作する可能性があります。正確な必要スペックは使用する量子化レベルとコンテキスト長に依存するため、公式リポジトリのドキュメントを確認してください。

Q: 検閲解除（uncensored）版は安全に使えますか？

検閲解除版はモデルの出力制限が解除されているため、不適切なコンテンツが生成される可能性があります。生成内容の責任はユーザーにあります。業務利用の場合は、出力フィルタリングの仕組みを別途実装することを推奨します。

Q: Qwen3.5は日本語に対応していますか？

Qwen3.5シリーズは多言語対応モデルであり、日本語の処理にも対応しています。ただし、検閲解除版のファインチューニングが日本語品質にどの程度影響するかは、実際に試して確認することをお勧めします。

Q: 785個のMTPヘッドと15個のMTPヘッドの違いは？

35B A3B（MoE）モデルには785個、27B（Dense）モデルには15個のMTPヘッドが元のアーキテクチャとして搭載されています。MTPヘッド数が多いほど、MTP対応推論エンジン使用時の速度向上効果が大きくなる可能性があります。この違いはモデル設計上のものであり、どちらも「完全保持」されています。

Qwen3.5 Native MTP保持版が登場！785個のMTPを完全保持

Qwen3.5 Native MTP保持版とは何か

MTP（Multi-Token Prediction）の重要性

「uncensored heretic」とは

Qwen3.5 Nativeの詳細分析：MTPとは何が違うのか

35B A3Bモデルの構造

27Bモデルも同時リリース

対応フォーマット

モデルバリエーション比較

実践：ローカルで動かす方法

ステップ1：環境の確認

ステップ2：ツールの選択

ステップ3：モデルのダウンロード

ステップ4：Ollamaでの実行例

ステップ5：MTP対応推論の確認

🇯🇵 日本での活用ポイント

日本語対応と実用シナリオ

ビジネスでの具体的な活用シーン

日本のローカルLLM環境との相性

💡 pikl編集部の視点

まとめ

関連ツール

よくある質問

コメントするコメントをキャンセル

Qwen3.5 Native MTP保持版とは何か

MTP（Multi-Token Prediction）の重要性

「uncensored heretic」とは

Qwen3.5 Nativeの詳細分析：MTPとは何が違うのか

35B A3Bモデルの構造

27Bモデルも同時リリース

対応フォーマット

モデルバリエーション比較

実践：ローカルで動かす方法

ステップ1：環境の確認

ステップ2：ツールの選択

ステップ3：モデルのダウンロード

ステップ4：Ollamaでの実行例

ステップ5：MTP対応推論の確認

🇯🇵 日本での活用ポイント

日本語対応と実用シナリオ

ビジネスでの具体的な活用シーン

日本のローカルLLM環境との相性

💡 pikl編集部の視点

まとめ

関連ツール

よくある質問

コメントする コメントをキャンセル

コメントするコメントをキャンセル