この新しい AI テスト(作成者らは世界で最も難しいと言っています)に合格することは、AGI の最初の兆候を示している可能性があります

Center for AI Safety and Scale AI の研究者は、「人間性の究極のテスト」を公開しました。これは、今日最も強力な人々がどれだけ人間性の限界に近づいているかを測定するために設計されたテストです。 人工知能 (AI) モデルは、多くの分野で人間レベルの知識と同等、またはそれを超えることを目的としています。
この試験は2025年1月に開始される予定だったが、科学者らは、1月28日にジャーナル「ネイチャー」に掲載された新しい研究で、その枠組みとその設計の背後にある考え方を初めて概説した。 自然。これには、50 か国の 500 機関からの 1,000 名を超える各分野の専門家からの意見を取り入れた、100 を超えるトピックにわたる 2,500 の質問が含まれています。
発売時に、研究者らは OpenAI の GPT-4O および O1 モデル、Google の Gemini 1.5 Pro、Anthropic の Cloud 3.5 SONET、および DeepSeek R1 をテストしました。 OpenAI の o1 システムは、わずか 8.3% のスコアでトップの座を維持しました。
このパフォーマンスの低さにも関わらず、研究者らは当時、「AI開発の急速なペースを考慮すると、2025年末までにモデルのHLE精度が50%を超える可能性は十分に考えられる」と書いている。
2026年2月12日時点の最高スコア これまでに達成した 48.4%、Google の Gemini 3 DeepThink によって決定されました。一方、人間の専門家はそれぞれの分野で約 90% のスコアを獲得しています。
世界で最もスマートなマシンをテストする
人間性の究極の試練は、AI モデルにとって意図的に非常に困難にされました。初期開発中に、研究者は多くの分野の対象分野の専門家からの投稿を世界的に募集しました。
研究者らは、質問が正確で、明確で、解決可能で、検索不可能であることを要求する、厳格な提出基準を適用しました。彼らは、単純な Web 検索を実行したり、オンラインですでに質問が表示されているのを確認したりしてモデルが不正行為を行うことを望んでいませんでした。これにより、特定のモデルがそのトレーニング データセットに答えを持っている可能性が高まります。
送信された各質問は AI モデルに入力されました。チームは、モデルが正しく答えることができたすべての質問を自動的に拒否しました。
70,000 件以上の提出が試みられ、結果として LLM を混乱させる約 13,000 件の質問が発生しました。これらはその後、対象分野の専門家チームによって精査され、研究チームによって承認され、オープンなフィードバックを得るために科学コミュニティに提示されました。
最終的に研究者らは、提出される質問の総数を、通常博士レベルの試験の範囲内に含まれる 2,500 問に制限しました。
試験における一般知識の質問の例としては、「ギリシャ神話で、イアソンの曾祖父は誰ですか?」というものがあります。
一方、物理学の質問の例では、ブロックが水平レール上に置かれ (摩擦なしでスライドできる)、長さが不明な剛性の質量のないロッドにも取り付けられているというシナリオで、運動中のさまざまな力の関係について尋ねます。
その作成者らは、人文科学最終試験に含まれる質問の幅広さとトピックの範囲が、同様のベンチマーク ツールとは一線を画していると述べています。
共通テストなど 包括的なマルチタスク言語の理解 (MMLU) データセット、Center for AI Safety の創設者の参加により作成 ダン・ヘンドリックス主にコーディングと数学に焦点を当てて、専門家レベルのドメイン知識のごく一部のみをテストします。
Francois Chollet のような最先端のベンチマークも ARC-AGI このスイートは、人類最後の試験の作成者が新しいテストで対処することを提案した、記憶力と検索能力の問題を克服するのに苦労しています。たとえば、Gemini の DeepThink は、HLE テストで 50% に到達できなかったわずか 1 週間後に、ARC-AGI-2 ベンチマークで 84.6% を達成しました。
究極の賞品は常識だ
「人類最後の試験」はおそらく、人間の専門家と比較して現代の AI モデルの広範囲の能力を測定する AI 世界最高の試みを表しているが、研究の著者らは、HLE での高得点は決して人間の専門家の到来を示すものではないと明言している。 汎用人工知能 (AGI)。
「HLEの高い精度は、クローズドエンドの検証可能な質問や最先端の科学知識に関して専門家レベルのパフォーマンスを実証することになるが、それだけでは自律的な研究能力や汎用人工知能を示唆するものではない」と科学者らは研究の中で述べている。
「HLE で良好なパフォーマンスを発揮することは、機械が真の知能に達していると言うために必要な基準ではありますが、十分ではありません。」 マヌエル・ショットドルフデラウェア大学心理・脳科学学部の神経科学者は論文でこう述べた。 最近の声明。ショッテンドルフは、質問が HLE コーパスに受け入れられた数人の専門家の 1 人です。
「これらの疑問を解決するには、機械が十分に優れている必要がありますが、ある事実だけでは、機械が真に知的であると結論付けることはできません。」

