Claude Fable 5は今も脱獄されるのか|再展開後の対策を検証

Claude Fable 5の導入を検討する際、「脱獄(ジェイルブレイク:意図的にAIの安全制限を解除すること)」に関するニュースを聞き、セキュリティ面で不安を感じていませんか。特に生成AIをビジネスの基幹業務に組み込もうとする企業にとって、AIが開発者の意図しない動作をすることは、ブランド毀損や機密漏洩に直結する深刻なリスクです。

本記事では、2026年6月に発生したClaude Fable 5を巡るセキュリティ騒動の全貌と、その後のアップデートでどのように安全性が強化されたのかを詳細に解説します。

Claude Fable 5の脱獄騒動は事実

次世代AIエージェントの旗手として期待されたFable 5は、6月9日のリリース直後、非常に異例の事態に直面しました。単なるバグ報告の域を超え、国家レベルの輸出規制が動くという、AI開発史上でも稀に見る混乱となったのです。読者の皆様が把握しておくべき要点は、以下の3点に集約されます。

  • Amazonの研究者が重大な脆弱性を発見: 6月12日、Amazonの研究チームがFable 5のセーフガード(安全制限)を巧妙に回避する具体的な手口を発見し、Anthropic社へ報告しました。
  • 異例の即日輸出規制: この報告を受けた米政府は、同日の6月12日中にFable 5に対して輸出規制を適用。これにより、グローバルでの利用が一時的に厳しく制限される事態となりました。
  • 現在は対策済みのバージョンが展開中: その後、Anthropicによる厳格な修正と政府機関による検証を経て、現在は安全性が確認された状態で再展開されています。

この騒動の詳細な時系列や、ビジネスへの影響を含む再展開スケジュールについては、こちらの関連記事(輸出規制解除・再展開スケジュール)を参考にしてください。

図解:Claude Fable 5に「脱獄(ジェイルブレイク)」騒動があったのは事実

脱獄手口とAnthropicの対策

再展開にあたり、Anthropicはどのような技術的対策を講じたのでしょうか。単なるパッチ当てではない、抜本的な安全性の再構築が行われました。

Amazonの発見した手口

Amazonの研究者が発見したのは、モデルが持つ既存のセーフガードを意図的にすり抜けるための、極めて高度な入力パターンでした。従来の「脱獄」は、単純な命令(例:「悪い人のふりをして」)が主流でしたが、今回報告された手法は、AIに対して複雑な文脈や多層的な論理命令を組み合わせることで、本来は禁止されている有害なコンテンツ生成や、システム内部情報へのアクセスを促すものでした。

特にAIエージェントが自律的にツールを操作する「Agentic AI」の文脈では、こうした「入力による意図的な誘導」の防御は、開発チームにとって最優先で解決すべき課題となりました。

安全フィルターで99%遮断

Anthropicは、Amazonからの報告を受けて直ちに大規模なセキュリティアップデートを実施しました。その中核となるのが、新しく導入された「安全分類器(Safety Classifier)」です。

この分類器は、AIが回答を出力する直前のプロセスで、入力文と生成予定の回答をミリ秒単位でスキャンします。Amazonが報告した特定の手口はもちろん、それらを応用した類似の攻撃手法についても、99%以上の確率でブロックする体制を整えました。これまでの防御策を単に強化するのではなく、モデルの「思考の癖」を学習し直すことで、より堅牢な判断アルゴリズムを構築したのです。

米商務省CAISIの検証

今回の再展開プロセスにおいて特筆すべきは、第三者機関による厳格な検証です。Anthropicは、米商務省のAI安全評価のための専門組織である「CAISI」に対し、修正後のモデルを提出しました。

CAISIは、新旧のセーフガードを多角的に比較検証し、修正後のFable 5が攻撃に対して十分な耐性を持っているかを精査しました。その結果、過去最大級の「安全マージン(防御の余裕)」が確保されていることが公式に認められたのです。この承認を受け、6月30日に輸出規制が解除され、翌7月1日から段階的な再展開が開始されました。

 

Claude Fable 5は脱獄されるか

最新バージョンのFable 5が、私たちの手元に戻ってきました。再展開されたプラットフォームは、「Claude Platform」「Claude.ai」をはじめ、開発者向けの「Claude Code」、共同作業に特化した「Claude Cowork」のすべてに及びます。

現在のセキュリティレベルと、移行期間の運用ルールについて整理します。

99%ブロックの限界

「99%以上のブロック率」は、AI業界においても驚異的な数値です。しかし、残りの「1%未満」の可能性については、冷静に理解しておく必要があります。

このブロック率は、既知の攻撃手法やそのバリエーションに対して計測されたものです。AIの世界では、常に新しい「プロンプトインジェクション」の手法が研究されており、未来永劫どのような攻撃も100%受け付けないという「絶対的な安全」を保証するものではありません。

特に、企業が独自のデータとClaudeを連携させる(RAGなどの手法)場合、モデル自体の安全性だけでなく、システム全体の設計におけるセキュリティ対策が重要になります。

関連記事(Claude Fable 5のセーフガードとは|3つの制限と自動切替の仕組み)

移行期間の利用制限(7/7まで・7/8以降)

再展開直後の安定性を確保するため、Anthropicは段階的な移行措置を設けています。
* 7月7日まで: 週間利用枠が通常の最大50%に制限されます。これは、新システムの負荷と安全性をリアルタイムで監視するための措置です。
* 7月8日以降: 通常のクレジット制(従量課金)へと完全移行します。

Mythos 5との比較

Fable 5と同時に発表され、その圧倒的な性能で注目を集めた「Mythos 5」ですが、こちらは一般提供の形態が大きく異なります。

項目 Claude Fable 5 Mythos 5
提供先・範囲 Claude.ai / Platform / Code / Cowork(一般公開) Project Glasswing(米国政府認可組織)限定
主な用途 ビジネス全般・プログラミング・執筆 高度な研究・シミュレーション・国防等
セーフティ管理 標準(99%ブロックの新分類器適用) セーフガードは意図的に少なめ(認定パートナー向け)
利用制限 7/7まで50%枠、7/8からクレジット制 一般ユーザーは利用不可

Mythos 5は、高度な専門用途を想定し、認定パートナー向けにあえて安全制限を絞った設計です。今回の再展開後も一般ユーザーへの開放は見送られ、現在は「Project Glasswing」と呼ばれる米国政府認可の組織内でのみ復旧・運用されています。

図解:今のClaude Fable 5は脱獄されるのか

今後の見通しと利用者の注意点

今回の「脱獄」騒動とそれに対するAnthropicの対応は、AI業界全体に大きな教訓を与えました。今後、私たちはAIエージェントとどのように向き合い、活用していくべきでしょうか。

業界標準と政府協力

Anthropicは、今回の事態を受けて、単一企業による安全対策には限界があることを認め、よりオープンな安全保障体制へと舵を切りました。

  1. 業界標準化の主導: ジェイルブレイク(脱獄)を評価・分類するためのフレームワークを業界標準にする取り組みを開始しました。
  2. 政府との協力継続: 米政府(商務省等)とのパイプを太くし、規制と技術進化のバランスを最適化する共同作業を継続しています。
  3. HackerOneプログラムの開設: 外部のセキュリティ研究者や「ホワイトハッカー」がFable 5の脆弱性を報告できるバグバウンティプログラムを公開しました。これにより、悪意ある攻撃者が脆弱性を見つける前に、善意の協力者によって穴を塞ぐエコサイクルが構築されています。

利用者側の注意点

AI側の防御がどれほど強固になっても、利用者側でのリテラシーが欠かせないのは従来通りです。以下の3点は、Fable 5を業務で利用する際の「鉄則」として共有してください。

  • 機密情報の直接入力の抑制: 開発元が安全を保証していても、個人情報や極秘プロジェクトの核心部分を安易にプロンプトへ含めない運用ルールを策定しましょう。
  • 回答内容の人間による検証(Human-in-the-Loop): AIが脱獄状態に近い「異常な回答」を生成した場合に備え、特に顧客対応などに利用する場合は必ず人間が介在する仕組みを設けてください。
  • アップデート情報の常時確認: AIのセキュリティは「いたちごっこ」の側面があります。公式サイトや信頼できるメディアを通じて、常に最新のセキュリティパッチ情報を確認する習慣を持ちましょう。

まとめ

今回のClaude Fable 5を巡る一連の騒動は、一見すると「欠陥の露呈」に見えますが、その実態は「AIが真に社会インフラとなるための試練」であったと評価できます。

  • 迅速な対応: 6月12日のAmazonによる報告から、即時の輸出規制、そして短期間での修正・再展開というプロセスは、Anthropicと政府の連携がいかに強固であるかを示しました。
  • 高い防御力: 新しい安全分類器により、既知の手口は99%以上ブロックされ、過去最大級の安全マージンが確保されています。
  • 透明性の確保: 米政府機関(CAISI)の検証やHackerOneプログラムの開設により、クローズドな開発から「オープンな安全」へと進化しました。
  • 段階的な復旧: 7月1日からClaude PlatformやClaude Code等で再展開が始まっており、7月8日にはクレジット制による通常運用が再開されます。

AIエージェントの活用は、ビジネスの生産性を劇的に向上させる強力な武器です。今回導入された「99%ブロック」の壁を信頼しつつ、利用者としても正しい知識を持つことで、安全に最大限のメリットを享受することが可能です。

無料ニュースレター
AIの大事な変化を、見逃さない。

海外の最新AIニュースも、公式発表から日本語に要約してお届け。
「毎日忙しいけど、AIの最先端は知っておきたい」——そんな人のための1通です。

無料で読みはじめる → 🎁読者限定|AI活用ガイド進呈
運営:AIエージェント専門メディア編集部|登録無料・いつでも解除可能
AIニュースを読む様子