Anthropic「Fable 5」、政府禁止措置を経て世界配信を再開
Anthropicは、ジェイルブレイク問題を理由に米政府から配信停止措置を受けていたAIモデル「Fable 5」について、約2週間ぶりに世界向け提供を再開した。問題の手法はAmazonの研究者が発見したもので、小型モデル「Claude Haiku 4.5」でも同様に通用するものだった。Anthropicは問題の手法を99%超の確率でブロックする安全分類器を新たに導入し、政府の承認を得て再開にこぎつけている。

Anthropicが開発したAIモデル「Fable 5」が、約2週間にわたる米政府による配信停止措置を経て、世界向けの提供を再開した。停止の原因となったのは、モデルの安全制限を意図的に回避する「ジェイルブレイク」と呼ばれる手法の発見だった。Anthropicは新たな安全対策を導入し、政府の承認を得て配信を再開している。
ジェイルブレイクとは、AIモデルが本来応答しないよう設定されている有害なコンテンツや危険な情報を、特定の入力操作によって引き出す行為を指す。今回の手法はAmazonの研究者によって発見されたもので、Fable 5に限った問題ではなかった。Anthropicの説明によると、同社のより小型のモデル「Claude Haiku 4.5」でも同じ手法が有効だったという。つまり、今回の脆弱性はFable 5固有のものではなく、Anthropicのモデル全体に共通する技術的な課題だったことになる。
Anthropicはこの問題に対応するため、新たな「安全分類器」を実装した。安全分類器とは、入力されたテキストが有害な意図を持つかどうかを判定するフィルタリング機能のことだ。同社によると、この分類器は問題となった手法を99%超のケースで遮断できるという。ただし、その一方で悪意のない一般的なリクエストも一部誤って制限してしまう「過検知」が増えているとも認めている。
今回の経緯が示すのは、最先端AIモデルの公開と安全管理のあいだにある難しいバランスだ。米政府がAIモデルの配信を一時停止するという対応は、AIの安全性に対する監視が実際に機能していることを示すとも言える。一方で、同様の脆弱性が小型モデルにも存在していたという事実は、特定モデルを止めるだけでは根本的な解決にならない場合があることを示唆している。
AIの安全対策は現在も発展途上にあり、フィルタリング精度の向上と使い勝手の維持はトレードオフの関係になりやすい。今回のように安全性を高めると「無害なリクエストも弾いてしまう」という問題が生じるのは、業界全体に共通する課題だ。Anthropicを含む各社がどのようにこのバランスを取り続けるかは、引き続き注目すべき点と言える。
今後の焦点は、Anthropicが実装した安全分類器の精度改善と、過検知の低減がどこまで進むかにある。また、政府機関がAIモデルの安全審査にどこまで関与するかという制度的な論点も、今後の業界動向に影響を与えていく可能性がある。
本記事は、AI issue編集部が事実(ファクト)をもとに独自に作成・編集した著作物です。著作権はAI issueに帰属し、無断転載・再配布およびAIの学習・活用を禁じます。