DeepSeekが公開した視覚推論フレームワーク「Thinking-with-Visual-Primitives」の概要と、Ollama・LM Studio・Janを使ってDeepSeekモデルをローカル環境で動かす実践手順を解説します。
📰 ソース:Reddit r/LocalLLaMA / 海外AI技術コミュニティ
- DeepSeekが画像に対して「視覚的プリミティブ」(バウンディングボックス・マーキング等)を使って推論するフレームワークを公開
- Reddit r/LocalLLaMAで192スコアを獲得し、ローカルLLMコミュニティで注目度が高い
- Ollama・LM Studio・Janの3ツールを使えば、DeepSeekモデルをGUI付きでローカル実行可能
Thinking-with-Visual-Primitivesとは何か

2025年7月、DeepSeekが新たに公開した「Thinking-with-Visual-Primitives(TVP)」フレームワークが、Reddit r/LocalLLaMAで192スコアを獲得し大きな話題になっています。これは、マルチモーダルAIモデルが画像を解析する際に、テキストだけで推論するのではなく、バウンディングボックスやポイントマーカーといった「視覚的プリミティブ(Visual Primitives)」を中間表現として活用するアプローチです。
従来の視覚推論との違い
従来のマルチモーダルモデル(GPT-4o、Claude 3.5等)は、画像をトークン化してテキストベースのチェーン・オブ・ソート(Chain-of-Thought)で推論を行います。しかしTVPフレームワークでは、推論の途中段階で画像上に直接視覚的なアノテーション(枠線や矢印など)を生成し、それを再度モデルに入力することで、空間的な理解精度を高めるという仕組みです。
GitHubリポジトリの概要
DeepSeekはこのフレームワークをGitHub上でオープンソースとして公開しています。具体的なモデルサイズやベンチマーク数値については、公式リポジトリおよび付随する論文を参照してください。r/LocalLLaMAのスレッドでは、特に図表やチャートの解析、医療画像の分析といった空間的推論が求められるタスクでの有効性が議論されています。
DeepSeekの視覚推論フレームワークを深掘りする
技術的なアーキテクチャ
TVPの核心は、テキストによる思考プロセスの中に「視覚的な操作ステップ」を挟み込む点にあります。具体的には以下のようなフローになります。
- ステップ1:入力画像とプロンプトをモデルに送信
- ステップ2:モデルが「ここにバウンディングボックスを描く」「この領域をズームする」などの視覚プリミティブ命令を生成
- ステップ3:視覚プリミティブが適用された画像を再度モデルに入力
- ステップ4:強調された情報をもとに最終回答を生成
この「見て→印をつけて→もう一度見る」というサイクルは、人間がホワイトボードに図を描きながら考えるプロセスに近い発想です。
コミュニティでの反応
Reddit r/LocalLLaMAのスレッドでは、このアプローチが「テキストだけのCoTでは限界がある空間推論タスクを大幅に改善する可能性がある」と評価されています。一方で、推論のステップ数が増えるためレイテンシが大きくなる点や、ローカル実行時のVRAM消費が気になるという声も見られます。
関連する動向:llama-swapの新機能
同じr/LocalLLaMAでは、llama-swapの新しいグルーピング機能「matrix」も話題になっています(スコア48)。これは複数のモデルを同時に走らせる際に、どのモデル同士を並行実行できるかを細かく制御する機能で、DeepSeekモデルと他のモデルを切り替えながら使いたいローカルLLMユーザーにとって実用的なアップデートです。
ローカル実行ツール比較
DeepSeekモデルをローカルで試すための主要3ツールを比較します。
| ツール名 | 特徴 | GUI | 対応OS | DeepSeek対応 |
|---|---|---|---|---|
| Ollama | CLI中心・軽量・API提供 | なし(CLIのみ) | macOS / Linux / Windows | deepseek-r1, deepseek-coder等 |
| LM Studio | GUIが洗練・モデル検索が簡単 | あり(デスクトップアプリ) | macOS / Linux / Windows | GGUF形式で対応 |
| Jan | オープンソース・拡張性高い | あり(Electron製) | macOS / Linux / Windows | Hugging Face経由で対応 |
いずれのツールもDeepSeekの言語モデル(R1やCoderなど)は実行可能です。ただし、TVPフレームワーク自体はこれらツールでそのまま動くわけではなく、別途Pythonスクリプトでのセットアップが必要です(後述)。
実践:DeepSeekモデルをローカルで動かす手順
ステップ1:ツールのインストール
まずはOllamaをインストールします。最も手軽にDeepSeekモデルをローカルで試せます。
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows はインストーラをollama.comからダウンロード
ステップ2:DeepSeekモデルのダウンロードと実行
# DeepSeek-R1の蒸留版(7Bパラメータ・約4.7GB)を実行
ollama run deepseek-r1:7b
# より大きいモデルを試す場合(要16GB以上のRAM)
ollama run deepseek-r1:14b
7Bモデルであれば、8GB RAMのマシンでも動作します。14Bモデルは16GB以上を推奨します。
ステップ3:GUIで使いたい場合(LM Studio / Jan)
LM Studioの場合は公式サイトからデスクトップアプリをインストール後、検索バーに「deepseek」と入力するとGGUF形式のモデル一覧が表示されます。Janの場合も同様に、Hugging Faceからモデルをインポートして利用できます。
ステップ4:TVPフレームワークを試す(上級者向け)
# GitHubからリポジトリをクローン
git clone https://github.com/deepseek-ai/Thinking-with-Visual-Primitives.git
cd Thinking-with-Visual-Primitives
# 依存関係のインストール(Python 3.10以上推奨)
pip install -r requirements.txt
# デモの実行(具体的なコマンドは公式READMEを参照)
TVPフレームワークはPyTorch環境が必要で、CUDA対応GPU(VRAM 16GB以上推奨)でのパフォーマンスが最も良好です。具体的な必要スペックは公式リポジトリのREADMEを確認してください。
ステップ5:APIとして活用する
# Ollamaを起動した状態で、OpenAI互換APIが利用可能
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-r1:7b",
"messages": [{"role": "user", "content": "Pythonでクイックソートを実装してください"}]
}'
OllamaのOpenAI互換APIを使えば、既存のアプリケーションにDeepSeekモデルを組み込むことも容易です。
🇯🇵 日本での活用ポイント
日本語での利用状況
DeepSeekのモデル(特にR1シリーズ)は日本語に対応しています。コード生成や論理的推論のタスクでは実用的な日本語出力が得られます。ただし、TVPフレームワークに関しては、プロンプトやドキュメントが英語中心であるため、当面は英語での操作が前提になるでしょう。日本語OCRや日本語が含まれる図表の解析精度については、公式ベンチマークでの検証結果を確認することをお勧めします。
具体的な活用シナリオ
- 製造業の品質検査:TVPフレームワークの「視覚的に印をつけてから判断する」アプローチは、製品画像の欠陥検出ワークフローとの親和性が高いです。バウンディングボックスで異常箇所を特定し、その領域を拡大して判定するフローを自動化できる可能性があります。
- 建築・土木の図面解析:CAD図面やフロアプランを解析する際、空間的な位置関係の理解が求められます。TVPの段階的な視覚推論は、このようなタスクに有効と考えられます。
- 教育分野:数学の図形問題やグラフの読み取り問題を自動解答するシステムへの応用が期待できます。
ローカル実行のメリットと日本のビジネス環境
DeepSeekモデルをOllamaやLM Studioでローカル実行すれば、データが外部サーバーに送信されません。これは個人情報保護法や社内のセキュリティポリシーが厳格な日本企業にとって大きなメリットです。特に医療画像や建築図面など、機密性の高いデータを扱うケースでは、ローカル実行が現実的な選択肢になります。
💡 pikl編集部の視点
pikl編集部は、TVPフレームワークの登場が「マルチモーダルAIの推論方法」に関する重要な転換点になると考えます。現在のマルチモーダルモデルは、画像を一度トークン化したら後はテキストの世界で推論を完結させるアプローチが主流です。しかしTVPは「推論中に画像へ立ち戻る」という発想を取り入れており、これは人間の認知プロセスに近いものです。OpenAIやAnthropicのモデルが同様のアプローチを採用していないことを考えると、DeepSeekが独自の技術路線で差別化を図っている点は注目に値します。
一方で、実務で使う場合の注意点もあります。TVPは推論ステップが複数回に分かれるため、単純なVQA(Visual Question Answering)タスクでは従来手法よりもレイテンシが大きくなる可能性があります。リアルタイム性が求められるアプリケーション(監視カメラの映像分析など)には不向きで、バッチ処理で精度を重視するタスク(ドキュメント分析、医療画像診断支援など)に適していると考えます。
また、DeepSeekのモデルに対するセンサーシップの問題は依然として存在します。Reddit r/ChatGPTでは「フィクションの惑星を使ってDeepSeekの検閲フィルターを回避した」という投稿も話題になっていました。特定のトピックに関する出力が制限される場合がある点は、業務利用時に留意すべきです。ローカル実行であっても、モデルの学習段階で組み込まれたバイアスは残る可能性があるため、出力の検証プロセスを必ず設けるべきでしょう。pikl編集部としては、DeepSeekの技術的なイノベーションを評価しつつも、プロダクション環境での採用には十分なテストと出力監視の仕組みを推奨します。
まとめ
- TVPフレームワークは視覚推論の新手法:画像にバウンディングボックスなどの視覚プリミティブを描きながら段階的に推論する、DeepSeek独自のアプローチ
- ローカル実行は3ツールで手軽に開始可能:Ollama(CLI派)、LM Studio(GUI派)、Jan(オープンソース派)から選べる。DeepSeek-R1の7Bモデルなら8GB RAMでも動作
- 日本での活用は機密データ処理に強み:ローカル実行によるデータ保護のメリットが大きく、製造業の品質検査や図面解析などの領域で実用可能性が高い
関連ツール
| ツール名 | 用途 | 公式サイト |
|---|---|---|
| Ollama | CLI/APIベースのローカルLLM実行 | ollama.com |
| LM Studio | GUIベースのローカルLLM実行 | lmstudio.ai |
| Jan | オープンソースのローカルLLMクライアント | jan.ai |
| llama-swap | 複数ローカルモデルの切り替え管理 | GitHub上で公開 |
よくある質問
Q: DeepSeekのTVPフレームワークは無料で使えますか?
はい、GitHubでオープンソースとして公開されています。ライセンスの詳細は公式リポジトリで確認してください。ローカル実行に必要なハードウェア(CUDA対応GPU推奨)は自分で用意する必要があります。
Q: DeepSeekモデルの日本語性能はどの程度ですか?
DeepSeek-R1は日本語に対応しており、コード生成や論理推論では実用的な出力が得られます。ただし、日本語特化のベンチマークスコアは公式ドキュメントを参照してください。英語と比較するとやや精度が落ちる場合があります。
Q: GPUがなくてもDeepSeekモデルをローカルで動かせますか?
Ollamaを使えばCPUのみでもDeepSeek-R1の7Bモデルを実行可能です。ただし推論速度は大幅に遅くなります。快適に使うにはApple Silicon MacのM1以上、またはNVIDIA GPU(VRAM 8GB以上)を推奨します。
Q: TVPフレームワークと通常のマルチモーダルモデルの違いは何ですか?
通常のマルチモーダルモデルは画像をトークン化後にテキストベースで推論しますが、TVPは推論中に画像へバウンディングボックスなどの視覚的アノテーションを追加し、その結果を再入力して段階的に推論します。空間的な理解が求められるタスクでの精度向上が期待される手法です。
Q: DeepSeekモデルにはセンサーシップ(検閲)がありますか?
DeepSeekのモデルには特定のトピックに関する出力制限が組み込まれています。ローカル実行でもモデル学習時のバイアスは残るため、業務利用時は出力内容の検証プロセスを設けることを推奨します。


