Anthropicの課金バグで$200超過請求、返金拒否の波紋

Anthropicの課金システムにバグが発生し、ユーザーに約200ドル（約3万円）の超過請求が発生。返金対応も拒否されたとしてHacker Newsで大きな議論に。HERMES.mdとの関連や、APIコスト管理の重要性を掘り下げます。

📌 この記事のポイント

Anthropicの課金バグにより約200ドル（約3万円）の超過請求が発生し、返金が拒否されたとHacker Newsで報告（スコア382）
HERMES.mdなどのシステムプロンプト関連の仕組みがトークン消費に影響する可能性が指摘されている
ローカルLLM（Ollama、LM Studio、Jan）を活用すれば、APIコスト暴走のリスクをゼロにできる

何が起きたのか：Anthropicの課金バグ問題

2025年7月、Hacker Newsに投稿された「HERMES.md: Anthropic bug causes $200 extra charge, refuses refund」というスレッドが、スコア382を獲得し大きな注目を集めました。投稿によれば、Anthropicの課金システムにバグがあり、想定外の約200ドル（日本円で約3万円）の超過請求が発生。さらに問題なのは、Anthropic側がこのバグを認識しながらも返金対応を拒否したとされている点です。

HERMES.mdとは何か

HERMES.mdは、Anthropicが自社のClaude AIに適用しているシステムプロンプト（内部指示文書）の名称です。Claude Codeなどのツールを使用する際、このシステムプロンプトが自動的にコンテキストに挿入されます。問題は、このプロンプト自体がかなりのトークン数を消費する可能性がある点です。ユーザーが意図しないタイミングでこのプロンプトが繰り返し読み込まれたり、APIコールが想定以上に発生したりすると、課金額が急激に膨らむ事態が生じ得ます。

コミュニティの反応

Hacker Newsのスレッドでは、同様の経験をしたという声や、クラウドAIサービスの課金透明性に対する懸念が数多く寄せられています。特に「バグによる超過請求に対して返金しない」というAnthropicの対応については厳しい批判が集中しています。なお、Anthropicからの公式な声明は、本稿執筆時点では確認できていません。

HERMES.md: Anthropicの課金トラブルと背景分析

API課金モデルの構造的リスク

Anthropic Claude APIの料金体系は、トークン（入出力の文字量に相当する単位）ベースの従量課金制です。Claude 3.5 Sonnetの場合、入力100万トークンあたり3ドル、出力100万トークンあたり15ドルという価格設定です（公式サイトで最新価格を要確認）。一見安価に見えますが、長いシステムプロンプトの自動挿入、ツール呼び出し時のコンテキスト再送信、会話履歴の蓄積などが重なると、1セッションで数万トークンを消費することは珍しくありません。

なぜバグが見落とされるのか

今回の問題の根本的な原因として、以下の構造的な課題が挙げられます。

トークン消費の不透明性：システムプロンプト（HERMES.mdを含む）が裏側で何トークン消費しているか、ユーザーからは把握しにくい
リトライ処理の課金：APIエラー時の自動リトライが課金対象になるケースがある
ツール連携時の肥大化：Claude Codeのようなエージェント型ツールでは、ファイル読み込みやコマンド実行のたびにコンテキストが膨張する
使用量上限設定の不備：ダッシュボード上での支出上限（spending limit）設定が不十分、あるいはバグにより正しく機能しない可能性

他のAIサービスでも起こりうる問題

この種の課金トラブルはAnthropic固有の問題ではありません。OpenAI、Google（Gemini API）など主要なAI APIサービスすべてで類似のリスクが存在します。Reddit r/LocalLLaMAでも、Gemma 4のチャットテンプレートにツール呼び出し関連のバグが発見されたという報告（スコア55）があり、AI APIエコシステム全体でのバグ管理と品質保証の課題が浮き彫りになっています。

ローカルLLMという選択肢：コストリスクゼロの運用

APIの従量課金リスクを根本から排除する方法として、ローカルLLM（ローカル環境で動作する大規模言語モデル）の活用が注目されています。

ツール名	特徴	対応OS	GUI	日本語対応モデル
Ollama	CLIベース、軽量、APIサーバー機能あり	macOS / Linux / Windows	なし（CUI）	Llama 3系、Gemma 2系等
LM Studio	GUIが直感的、モデル検索・ダウンロードが容易	macOS / Windows / Linux	あり	GGUF形式の各種モデル
Jan	オープンソース、ChatGPT風UI、拡張機能あり	macOS / Windows / Linux	あり	対応モデルをインストール可能

ローカルLLMは初期のハードウェアコスト（GPU搭載PCなど）を除けば、利用時の追加課金は一切発生しません。7Bパラメータクラスのモデルであれば、16GB RAMのM1/M2 MacBookでも実用的な速度で動作します。

実践：APIコスト暴走を防ぐ5つのステップ

クラウドAPIの利用を続ける場合でも、以下の対策でリスクを大幅に軽減できます。

支出上限（Spending Limit）を必ず設定する：Anthropicのダッシュボードで月額上限を設定。開発用途なら$20〜$50程度から始めるのが安全です
トークン使用量をリアルタイム監視する：APIレスポンスに含まれるusageフィールド（input_tokens、output_tokens）を必ずログに記録し、異常値を検知する仕組みを作りましょう
ローカルLLMをフォールバックとして導入する：OllamaやLM Studioをインストールし、開発・テスト段階ではローカルモデルを使用。本番環境のみクラウドAPIを使う運用が理想的です
APIキーの権限を最小化する：プロジェクトごとに別のAPIキーを発行し、使用量の追跡と制限を個別に管理する
請求書を週次で確認する：月末にまとめて確認するのではなく、少なくとも週1回はダッシュボードで使用量を確認する習慣をつけましょう

# Ollamaのインストール例（macOS/Linux）
curl -fsSL https://ollama.com/install.sh | sh

# 日本語対応モデルの起動例
ollama run llama3.1:8b

# APIサーバーとして利用（OpenAI互換エンドポイント）
# デフォルトで http://localhost:11434 にサーバーが立ちます

🇯🇵 日本での活用ポイント

日本のエンジニアが注意すべきシナリオ

日本では特に、スタートアップや個人開発者がClaude APIを活用するケースが増えています。円安の影響で、200ドルの超過請求は約3万円に相当し、個人にとっては無視できない金額です。また、法人利用の場合でも、経費精算や予算管理の観点から、予期しない課金は大きな問題になります。日本企業では月次で予算が厳密に管理されていることが多く、突発的な3万円の支出は社内説明にも手間がかかるでしょう。

日本語でのサポート対応の課題

Anthropicのサポートは現時点では基本的に英語対応です。課金トラブルが発生した場合、英語でのやりとりが必要になります。今回のケースのように返金が拒否される可能性もあるため、日本のユーザーにとってはさらにハードルが高いと言えます。トラブル発生時に備え、日本の決済サービス（クレジットカード会社等）への相談ルートも事前に確認しておくことを推奨します。

ローカルLLMの日本語対応状況

APIコストリスクの回避策として紹介したローカルLLMツール群は、日本語でも利用可能です。Ollamaで利用できるLlama 3.1の8Bモデルは日本語にも一定程度対応しています。LM StudioやJanでは、Hugging Face上の日本語特化モデル（ELYZA、Swallow系など）をGGUF形式でダウンロードして使用できます。ただし、Claude 3.5 Sonnetと同等の日本語品質を期待するのは現時点では難しいため、用途に応じた使い分けが重要です。

💡 pikl編集部の視点

pikl編集部は、今回のAnthropicの課金バグ問題は、AI APIサービス全体の信頼性に関わる重要なシグナルだと考えます。Hacker Newsでスコア382を獲得するほどの反響があったことは、多くの開発者が同様のリスクを潜在的に抱えていることを示しています。特に問題視すべきは「バグを認識しながら返金しない」とされる対応姿勢です。クラウドサービスの従量課金モデルにおいて、プロバイダー側のバグによる超過請求は利用者に責任がないはずであり、これが事実であれば業界全体の信用問題に発展しうると見ています。

この問題は、「ローカルLLM vs クラウドAPI」の選択基準を再考させるきっかけになるでしょう。pikl編集部が注目しているのは、ローカルLLMのツールエコシステムが急速に成熟している点です。Ollama、LM Studio、Janといったツールは、1年前と比較してセットアップの容易さやモデルの品質が飛躍的に向上しています。すべてのユースケースでクラウドAPIを置き換えられるわけではありませんが、開発・テスト段階やプライバシーが重要な業務では、ローカルLLMを第一選択肢にすることが合理的になりつつあると考えます。コスト面だけでなく、データがローカルに留まるためセキュリティ面でも優位です。

今後のAI APIサービスには、支出上限のハードリミット機能（設定額を超えたら物理的にAPIが停止する仕組み）や、トークン消費のリアルタイム可視化ダッシュボード、バグ起因の課金に対する自動返金ポリシーなど、ユーザー保護の仕組みがより強く求められるようになるでしょう。日本の開発者にとっては、クラウドAPIとローカルLLMの「ハイブリッド運用」を今から構築しておくことが、コストリスクとパフォーマンスの両面で最適な戦略になるとpikl編集部は考えます。

まとめ

課金バグの実態：Anthropicの課金システムにバグが発生し、約200ドルの超過請求と返金拒否がHacker Newsで報告された。HERMES.mdなどのシステムプロンプトによる隠れたトークン消費が背景にある可能性がある
自衛策の重要性：支出上限の設定、トークン使用量の監視、ローカルLLM（Ollama、LM Studio、Jan）の併用など、多層的なコスト管理が不可欠
ハイブリッド運用の推奨：開発・テストにはローカルLLM、本番環境にはクラウドAPIという使い分けが、コスト・セキュリティ・品質のバランスを取る最適解

ツール名	公式サイト	用途	料金
Ollama	ollama.com	ローカルLLM実行（CLI）	無料・OSS
LM Studio	lmstudio.ai	ローカルLLM実行（GUI）	無料（個人利用）
Jan	jan.ai	ローカルLLMチャットUI	無料・OSS

よくある質問

Q: HERMES.mdとは何ですか？

HERMES.mdは、AnthropicがClaude AIに適用しているシステムプロンプト（内部指示文書）の名称です。Claude CodeなどのツールでClaudeを使用する際に、自動的にコンテキストに挿入されます。このプロンプト自体もトークンとして課金対象になるため、意図しないコスト増加の原因になることがあります。

Q: Anthropic APIの課金を事前に制限する方法はありますか？

Anthropicのダッシュボードから支出上限（Spending Limit）を設定できます。ただし、設定方法や挙動の最新情報は公式ドキュメントで確認してください。併せて、APIレスポンスのusageフィールドをログに記録し、異常な消費を検知する仕組みを自作することも推奨します。

Q: ローカルLLMでClaude並みの品質は得られますか？

現時点では、ローカルで動作する7B〜13Bクラスのモデルが、Claude 3.5 Sonnetと同等の品質を達成するのは難しいです。ただし、コード補完や定型文の生成、テスト用途など、限定的なタスクであれば十分に実用的です。OllamaやLM Studioで複数モデルを試し、用途に合ったものを選ぶことをおすすめします。

Q: 日本語でAnthropicにサポート問い合わせはできますか？

Anthropicのサポートは基本的に英語対応となっています。課金トラブルの際は英語での問い合わせが必要になります。併せて、利用しているクレジットカード会社への相談も有効な手段です。

Q: OllamaとLM StudioとJanはどう使い分ければよいですか？

コマンドライン操作に慣れている方やAPIサーバーとして使いたい方にはOllamaが最適です。GUIでモデルを手軽に試したい方にはLM Studio、ChatGPTのようなチャット体験をローカルで再現したい方にはJanがおすすめです。すべて無料で使えるため、まずはインストールして実際に試してみるのがよいでしょう。