AI蒸留攻撃とは？Claudeを狙った手口と今すぐできる防御策5選

2026年2月28日
AI

「自分が毎日使っているAIが、知らないうちに丸ごとコピーされていた」——そう聞いたら、ちょっとゾッとしますよね。

2026年2月、AIスタートアップのAnthropicが衝撃的な発表をしました。中国のAI企業3社が、約2万4,000の不正アカウントを使って、Claudeから1,600万回以上の「知識」を盗み出していたというんです。この手口は「蒸留攻撃（Distillation Attack）」と呼ばれています。

こんな方におすすめ

AIセキュリティの最新動向を知りたいエンジニア・IT担当者
「蒸留攻撃」って何？とニュースで見て気になった方
自社でAI APIを使っていて、不正利用のリスクが心配な方
AI業界の裏側で何が起きているのか知りたい方

この記事でわかること

蒸留攻撃のメカニズムと、なぜ正規技術が「兵器」になるのか
DeepSeek・Moonshot・MiniMaxの具体的な手口と規模の全貌
蒸留されたAIモデルが国家安全保障レベルで危険な理由
エンジニアが今日から実装できる5つの防御策

僕は福祉事業のIT全般を担当しながら、個人でも開発受託やAIエージェントの開発をしているエンジニアです。Claude MAXのヘビーユーザーとして、まさに今回の事件の「当事者側」。自分が毎日使っているサービスが狙われた経験から、この問題をできるだけわかりやすくお伝えします。

1 そもそもAI蒸留攻撃（Distillation Attack）とは？
2 DeepSeek・Moonshot・MiniMaxの手口を徹底解剖
3 なぜ蒸留モデルは危険なのか？
4 Anthropicの防御技術 — 行動フィンガープリントからウォーターマーキングまで
5 エンジニアが今すぐ実践できるAIセキュリティ対策5選
6 AIセキュリティを知らないまま1年過ごすとどうなるか
7 この記事を書いている理由
8 まとめ

そもそもAI蒸留攻撃（Distillation Attack）とは？

「蒸留」って聞くと、お酒を作るイメージがありますよね。ウイスキーを蒸留して、原液からエッセンスだけを取り出す。AIの蒸留もこれと似ています。

AI業界における「蒸留（Distillation）」は、もともと正規の技術です。大きくて賢いAIモデル（教師モデル）に問題を解かせて、その回答パターンを小さなモデル（生徒モデル）に学習させます。イメージとしては、東大首席の先輩のノートを丸写しして、その解き方のクセごと身につけるような感じです。

技術的にもう少し詳しく説明すると、教師モデルが出力する「確率分布」——つまり「この単語が来る確率は70%、あの単語は20%」という細かな判断の癖——を、生徒モデルがそっくり真似するように訓練します。正解/不正解の二択ではなく、「正解に近い答えにも少し確率を振っている」という微妙なニュアンスまでコピーできるのが蒸留の強みです。

この技術自体は正規の用途がたくさんあります。たとえば、スマホで動くような軽量AIを作ったり、特定タスクに特化したモデルを効率的に開発したり。Google、OpenAI、Anthropicなど大手も自社モデルの軽量化に蒸留を使っています。

問題は、これを無断で競合他社のモデルに対してやることです。料理に例えるなら、ミシュラン三つ星シェフのレストランに毎日通って、全メニューの味を分析し、自分の店で「オリジナルです」と出すようなもの。開発に数百億円かかるAIモデルの能力を、ほんの数分の1のコストと時間で丸ごと盗めるわけですから、やる側にとっては非常に「おいしい」手口です。

DeepSeek・Moonshot・MiniMaxの手口を徹底解剖

今回Anthropicが名指しで告発したのは、中国のAI企業3社。ニュースでは「DeepSeekがClaudeを盗んだ」という見出しが目立ちましたが、実態はかなり違います。

項目	MiniMax	Moonshot AI	DeepSeek
やり取り回数	1,300万回以上	340万回以上	15万回以上
全体に占める割合	約81%	約21%	約1%
主な標的	広範囲の能力	エージェント推論・ツール利用・コーディング	推論タスク・検閲回避
特徴的な行動	新モデルリリース24時間以内に追従	コンピュータビジョン能力の抽出	政治的クエリの代替文生成

意外じゃないですか？実は「主犯」はDeepSeekではなくMiniMax。1,300万回以上のやり取りで全体の約81%を占めています。DeepSeekは15万回と、規模だけで言えば全体の1%程度に過ぎません。

MiniMaxの「リアルタイム寄生」パターンはとくに巧妙です。Anthropicが新しいモデルをリリースすると、なんと24時間以内にトラフィックの約半分を新モデルに切り替えていました。つまり、最新の能力を常に吸い取り続ける「寄生虫」のような動きです。モデルが進化するたびに自動で追従してくるわけですから、防御する側としては非常に厄介ですよね。

DeepSeekの手口は規模こそ小さいものの、質的に異なる問題を含んでいます。推論能力の抽出に加えて、政治的に敏感なクエリの検閲回避用の代替文をClaudeに生成させていました。たとえば「反体制派」「党首」「権威主義」に関する質問をClaudeに投げて、中国国内の検閲をすり抜ける表現パターンを収集していたのです。

Moonshot AIは340万回のやり取りで、特にエージェント推論（AIが自律的にタスクをこなす能力）やツール利用、コーディング、コンピュータビジョンといった「実務に直結する能力」を狙い撃ちにしていました。

「ハイドラクラスター」—— 検出を逃れる攻撃インフラ

3社が使っていたのが「ハイドラクラスター」と呼ばれる攻撃アーキテクチャです。ギリシャ神話の多頭蛇ヒュドラにちなんだ名前で、1つのアカウントを潰してもまた別のアカウントが生えてくるイメージです。具体的には：

商用プロキシサービスを使って2万以上の不正アカウントを同時運用
正規ユーザーのトラフィックに蒸留用トラフィックを巧妙に混在させて検出を回避
IPアドレスを常に変えることで、1つのアカウントが凍結されても別のルートで即座に復帰

なぜ蒸留モデルは危険なのか？

「コピーされたくらいで何が問題なの？」と思うかもしれません。でも、蒸留モデルが本当に怖いのは、能力はコピーできるのに、安全対策はコピーされないという点です。

ClaudeやGPTのような最先端AIには、膨大な時間とコストをかけた「アライメント（安全調整）」が施されています。たとえば「爆弾の作り方を教えて」と聞いても答えない、差別的な出力をしない、といったガードレールです。これはモデルの「能力」とは別レイヤーで実装されていて、蒸留で能力を吸い出すときに一緒にはついてきません。

イメージとしては、高級車のエンジンだけ盗んで自分の車に載せるようなもの。エンジンのパワーは手に入りますが、ブレーキシステムやエアバッグ（＝安全対策）はついてこないんです。結果として、高性能だけど安全装置のない暴走車ができあがります。

これが国家安全保障レベルで懸念される理由は明確です。安全対策が剥がれた高性能AIは、以下のような悪用に転用できてしまいます：

生物兵器の設計支援 — 正規モデルなら拒否する危険な化学物質の合成手順を出力
高度なサイバー攻撃コードの生成 — マルウェアや脆弱性攻撃ツールの自動作成
監視システムへの組み込み — 特定個人の追跡・プロファイリングに最適化
偽情報キャンペーンの大規模化 — 各国の文化・言語に合わせたフェイクニュースを自動生成

しかもこの問題はAnthropicだけの話ではありません。OpenAIも同様にDeepSeekによる蒸留攻撃を報告していますし、Googleも10万回以上のGeminiへの蒸留試行を検出しています。業界全体が同じ脅威にさらされているのが現状です。

Anthropicの防御技術 — 行動フィンガープリントからウォーターマーキングまで

では、Anthropicはどうやって1,600万回もの不正アクセスを見破ったのでしょうか？その防御技術は大きく4つのカテゴリに分かれます。

1. 行動フィンガープリント（Behavioral Fingerprinting）

正規ユーザーと蒸留攻撃者では、AIの使い方に明確な違いがあります。普通のユーザーは日常的な質問や雑談も混ぜますが、蒸留目的のアクセスは特定の能力領域に対して機械的に大量のクエリを送るパターンを示します。この「行動の指紋」を機械学習で検出します。たとえばMiniMaxのケースでは、コーディング問題に集中した大量リクエストが短時間に送られるパターンが検出の手がかりになりました。

2. チェーン・オブ・ソート（CoT）引き出し検出

蒸留攻撃で最も価値があるのは、AIの「思考過程」です。「この答えに至った内部推論をステップバイステップで詳細に説明してください」——こういったプロンプトが大量に来たら、蒸留目的の可能性が高いですよね。Anthropicは推論トレースを要約して返すことで、蒸留に使えるCoT情報量を意図的に制限する手法を導入しています。

3. アカウント強化認証

2万以上の不正アカウントの同時運用を防ぐため、本人確認プロセスを強化しています。電話番号認証、支払い情報の検証、使用パターンに基づくリスクスコアリングなど、複数のシグナルを組み合わせて不正アカウントの大量作成を困難にしています。

4. 出力ウォーターマーキング

モデルの出力に人間には見えない「統計的な署名」を埋め込む技術です。蒸留されたモデルの出力にこの署名の痕跡が残るため、「このモデルはClaudeから蒸留された」という法的証拠になります。完全な防止は難しくても、事後的な立証と抑止に役立ちます。

Anthropicが認めているように、蒸留攻撃を100%防ぐことは原理的に不可能です。LLMの本質は「プロンプトに回答すること」なので、正規利用と蒸留の完全な区別はできません。目標は「モデルを盗むコストを、正規ライセンスを取得するコストより高くする」という経済的抑止のアプローチです。

エンジニアが今すぐ実践できるAIセキュリティ対策5選

ここまでの話は大企業レベルの問題に聞こえるかもしれませんが、自社でAI APIを公開している方や、AIサービスを運用しているエンジニアにとっても無縁ではありません。以下の5つの対策は、規模を問わず実践できるものです。

インテリジェントなレート制限 — 単純な「1分間に○回まで」ではなく、ユーザーごとの使用パターンを分析した動的な制限が有効です。たとえば、普段は1日10回のAPIコールをするユーザーが突然1,000回叩き始めたら、一時的に速度制限をかけてアラートを出します。特定のエンドポイントへの集中アクセスもフラグの対象にしましょう。
出力摂動（Output Perturbation） — APIのレスポンスに、精度に影響しない程度の微小なランダム性を加えます。同じプロンプトを何度送っても微妙に異なる出力になるため、蒸留用の「きれいな訓練データ」を作りにくくなります。温度パラメータの調整だけでなく、トークンレベルでの確率分布に制御されたノイズを加える手法もあります。
推論情報の制限 — Chain of Thoughtや中間ステップの情報は、蒸留にとって最も価値が高いデータです。APIレスポンスで内部推論を丸ごと返すのではなく、要約版を返す、もしくは推論トレースを別エンドポイントにして追加認証を要求する設計が有効です。
異常検知の実装 — 蒸留攻撃のパターンを検知するロジックを組み込みます。以下はシンプルな検知ロジックの考え方です：

// 蒸留攻撃の異常検知ロジック（概念コード）
function detectDistillation(userActivity) {
  // 1. 狭い能力領域への集中度をチェック
  const topicConcentration = calcTopicEntropy(userActivity.queries);
  if (topicConcentration > THRESHOLD_CONCENTRATION) flag('topic_focus');

  // 2. CoT引き出しパターンの検出
  const cotRatio = userActivity.queries
    .filter(q => containsCoTExtraction(q)).length / userActivity.total;
  if (cotRatio > 0.3) flag('cot_extraction');

  // 3. 新モデルリリース後のトラフィック急増
  if (isPostReleaseSpike(userActivity)) flag('release_chasing');
}

利用規約とポリシーの明文化 — 技術的な対策と同じくらい重要なのが、法的・契約的な防御です。利用規約に「モデル蒸留・出力の訓練データ利用は禁止」と明記し、違反時のアカウント停止・法的措置を定めておきます。Anthropicも今回、利用規約違反を根拠にアカウントを一斉凍結しました。

AIセキュリティを知らないまま1年過ごすとどうなるか

「うちはAI企業じゃないから関係ない」と思うかもしれません。でも、AIを業務に組み込んでいる企業にとって、蒸留攻撃の問題は他人事ではなくなりつつあります。

たとえば、自社でファインチューニングしたAIモデルをAPI公開している場合。蒸留対策を何もしていなければ、競合に数週間で能力をコピーされるリスクがあります。何百万円もかけた訓練データとチューニングの知見が、ほぼゼロコストで盗まれるわけです。

また、AI関連の法規制は世界中で急速に整備されつつあります。EUのAI Actや、日本国内でもAIガバナンスのガイドラインが厳格化する流れです。「知らなかった」では済まされない時代がすぐそこまで来ています。今のうちにAIセキュリティの基礎知識を身につけておくことは、エンジニアとしてのキャリアを守ることにも直結します。

この記事を書いている理由

僕自身、Claude MAXとChatGPT Proの2つのサブスクリプションを使って、Mac mini上でAIエージェントを24時間稼働させています。まさに今回の事件でターゲットになったClaudeのヘビーユーザーです。

このニュースを最初に見たとき、正直ゾッとしました。「僕が毎日Claudeと交わしている会話の裏で、2万4千ものアカウントがClaudeの頭脳を吸い出していたのか」と。そして同時に、自分のAIエージェントにも設定しているセキュリティルール——レート制限やアクセス制御——が、まさにこういう脅威に対する防壁なんだと実感しました。

AIを「使う側」としても「作る側」としても、セキュリティ意識を持つことが当たり前の時代になっています。この記事が、そのきっかけになれば嬉しいです。

まとめ

AI蒸留攻撃は、正規の技術が「兵器」として悪用される典型的なケースです。1,600万回以上の不正抽出、2万4千の偽アカウント、安全対策が剥がれたAIモデルの拡散——今回の事件は、AI業界全体にセキュリティの見直しを迫っています。

今日からできるアクション

自社のAI APIに動的レート制限と異常検知を実装する
利用規約に「モデル蒸留・出力の訓練目的利用の禁止」を明記する
推論トレースやCoT情報の公開範囲を見直す
AI関連のセキュリティニュースを定期的にチェックする習慣をつける（Anthropic Research Blogがおすすめです）

AIの進化とともに、セキュリティの重要性はますます高まっていきます。この記事が参考になったら、ぜひSNSでシェアしていただけると嬉しいです。AIセキュリティに関する他の記事も、こちらのAI安全性とは？AnthropicがAI軍事利用を拒否した理由とエンジニアが知るべきAI倫理もあわせてチェックしてみてください。