Anthropic が旗艦の安全誓約を削除

大手研究所の中で最もセキュリティに配慮した企業であると自称し、大成功を収めたAI企業であるAnthropicが、主要なセキュリティポリシーの中心となる誓約を放棄していると同社幹部らがTIMEに語った。

2023 年、Anthropic は、自社のセキュリティ対策が適切であることを事前に保証できない限り、AI システムをトレーニングしないことを約束しました。同社のリーダーたちは何年もの間、その約束（責任ある拡大方針（RSP）の中心柱）を、潜在的に危険な技術を開発するという市場のインセンティブに耐える責任ある企業であることの証拠として宣伝してきた。

しかし、ここ数カ月で同社はRSPに根本的な変更を加えることを決定した。この決定には、Anthropic が事前に適切なリスク軽減を保証できない場合には AI モデルをリリースしないという約束を取り消すことが含まれていました。

アンスロピック社の最高科学責任者であるジャレッド・カプラン氏は、独占インタビューで「AIモデルのトレーニングをやめても、実際には誰の役にも立たないと感じました」とTIMEの独占インタビューで語った。「AI の急速な進歩により、競合他社が前進している場合に一方的に約束するのは適切ではないと本当に感じました。」

TIMEがレビューしたこの新版のポリシーには、Anthropic独自のモデルがセキュリティテストでどのように機能するかについて追加開示するなど、AIのセキュリティリスクについてより透明性を高めるという約束が含まれている。競合他社のセキュリティへの取り組みに匹敵するか、それを上回ることに注力しています。そして、指導者がAnthropicがAI競争のリーダーであると考え、災害のリスクが重大であると考える場合、AnthropicのAI開発を「遅らせる」と約束しています。

しかし、全体として、Anthropic は、適切なセキュリティ対策がまだ導入されていない場合、特定のレベルを超えるモデルをトレーニングすることを以前は明示的に禁止していた RSP の変更により、セキュリティポリシーによる制約が大幅に緩和されました。

この変化は、以前はAI競争でOpenAIの背後にあると考えられていたAnthropicが、一連の技術的およびビジネス的ブレークスルーの頂点にある中で起こった。そのクラウドモデル、特にソフトウェア作成ツール Cloud Code は、多くの熱心なファンを獲得しています。 2月、Anthropicは新規投資で300億ドルを調達し、その評価額は約3,800億ドルとなり、年間収益が年間10倍の割合で成長していると報告した。企業に直接販売するという同社の中核となるビジネスモデルは、膨大な消費者ユーザーベースを収益化するというOpenAIの中核戦略よりも信頼できると多くの投資家は考えている。

Anthropicの幹部で共同創設者のカプラン氏は、超知性を求める競争が激化する中、同社の方針変更の決定は市場のインセンティブへの降伏であると否定した。代わりに、彼はそれを新たな政治的および科学的現実への実践的な対応として組み立てました。「私たちがUターンするつもりはないと思います」とカプラン氏は言う。

Anthropic が導入されたとき カプラン氏によると、2023年にはRSPを実施し、ライバル企業にも同様の措置を講じるよう促すことを期待しているという。（競合他社のいずれも、AI開発を中止すると明確に約束したわけではないが、リスクを軽減する計画を詳述した長文の報告書をいくつか公表しており、カプラン氏はこれを人為的であり、業界に良い影響を与えるものだとみなしていた。）また、幹部らは、このアプローチが最終的には国内規制、さらには国際条約を拘束するための青写真として機能することを望んでいると主張している。

しかし、それらのルールは実装されることはありませんでした。むしろ、トランプ政権はAI開発に対して緩い姿勢を好み、州の規制を撤回しようとさえしている。連邦政府による AI 法案の制定は目前にありません。そして、グローバルガバナンスの枠組みは2023年に実現可能であるように見えたが、3年後にはその扉が閉ざされていることは明らかだ。その一方で、AIの覇権をめぐる競争は企業間だけでなく国家間でも激化している。

さらに悪いことに、AI 評価の科学は、Anthropic が最初に RSP を策定したときに予想していたよりも複雑であることが判明しました。強力な新しいモデルの出現は、2025 年に、これらのモデルがバイオテロ攻撃を促進する可能性を排除できないと Anthropic が発表したことを意味します。しかし、その可能性を排除することはできませんでしたが、そのモデルに対する強力な科学的証拠も欠如していました。したこの種の脅威により、政府や競合他社に慎重に行動する必要があると説得することが困難になっている。同社が以前に想像していた明るい赤い線のように見えるものは、代わりにぼやけたグラデーションとして焦点が当てられるようになりました。

カプラン氏によると、アンスロピック関係者は約1年間、この新たな環境に合わせて中核となる安全保障政策を再構築する方法を議論したという。彼らが立ち戻り続けた点の 1 つは、設立の前提でした。それは、適切な AI の安全性研究を実施するには、たとえそれが彼らが恐れていた脅威の到来を早める可能性があるとしても、能力の限界でモデルを構築する必要があるという考えでした。

カプラン氏によると、アモデイ氏は2月、競合他社が離陸する間、自社が新モデルのトレーニングを行わないようにすることは誰の役にも立たないと判断したという。「あるAI開発者が安全策を導入するために開発を一時停止し、他の開発者が強力な緩和策を講じずにAIシステムのトレーニングと展開を開始した場合、世界の安全性が低下する可能性があります」と、AmodeiとAnthropicの取締役会が全会一致で承認した新バージョンのRSPは序論で述べている。「セキュリティが最も弱い開発者がペースを決めることになり、責任ある開発者はセキュリティ研究を行う能力を失うことになるでしょう。」

クリス・ペインター、監督 危険な行動に対する AI モデルの評価に重点を置いている非営利団体 METR は、Anthropic の許可を得てポリシーの初期草案をレビューしました。同氏は、この変化は理にかなっているが、潜在的なAI災害に対処する世界の能力に対する景気後退のシグナルでもあると述べている。ペインター氏はTIMEに対し、RSPの変更は、リスクを評価し軽減する方法が機能のペースに追いついていないため、アンスロピックがセキュリティ計画をトリアージモードに移行する必要があると考えていることを示していると語った。「これは、社会がAIによってもたらされる潜在的な壊滅的なリスクに対して準備ができていないことのさらなる証拠です。」

Anthropic は、再定式化された RSP は古い RSP の最大の利点を保持するように設計されていると主張します。たとえば、Anthropic の元の RSP は、新しいモデルのリリースを妨げることで、セキュリティ緩和策を迅速に実装するよう奨励しました。（そうしなければ同社はAIを顧客に販売できなくなるからだ。）アンスロピックは、そのインセンティブを維持できると信じているという。新しい方針では、同社が「フロンティア安全ロードマップ」、つまり同社が策定したい将来の安全対策の詳細な目標のリストをまとめた文書を定期的に発表することを約束している。

新しいRSPでは、「当社は、会社の多くの部門からの協力（場合によっては犠牲）が必要であり、当面の競争上および商業上の優先事項と目的が交差する可能性があるため、そうでなければ適切に優先順位を付けてリソースを割り当てることが困難な仕事を強制する機能を作成したいと考えています。」と述べています。

アンスロピックは、いわゆる「リスクレポート」を3～6カ月ごとに発行することも約束するとしている。同社は、この報告書は「機能、脅威モデル（モデルが脅威を生成する具体的な方法）、プロアクティブなリスク軽減がどのように組み合わされるかを説明し、全体的なリスクレベルの評価を提供する」としている。広報担当者はTIMEに対し、これらの文書は同社がすでに公表している報告書よりもさらに詳細なものになると語った。

「透明性のあるリスク報告と公的に検証可能なセキュリティロードマップを重視している点が気に入っています」と METR 政策担当者のペインター氏は言います。しかし同氏は、特定の機能の登場がアンスロピックのAI開発を一時的に停止させるトリップワイヤーとして機能する、以前のRSPに基づくバイナリしきい値から遠ざかることにより、警報を発する瞬間もなく脅威が徐々に増大する「カエル沸騰」効果が発生する可能性があることを「懸念している」と述べた。

Anthropic が市場の圧力に屈しているのかとの質問に対し、Kaplan 氏は、実際、Anthropic は AI を安全に開発することに新たな取り組みを行っていると主張した。同氏は、「壊滅的なリスクにさらされている現在、すべての競合他社が透明性を持って正しいことを行っているのであれば、当社も同等かそれ以上のことを行うことに尽力する」と述べた。「しかし、他社が前進しており、私たちが実際にエコシステムに追加のリスクを追加していないというシナリオで、AI研究やAIセキュリティへの関与をやめ、テクノロジーの限界を理解しているイノベーターとしての関連性を失う可能性があるのは、適切ではないと考えています。」

Anthropic が旗艦の安全誓約を削除

Leave a Reply Cancel reply

グアダラハラ - アメリカ

Popular Posts

Leave a Reply Cancel reply

Related News