2026 年 2 月 14 日
4 議事録を読む
Google に追加してくださいサイアムを追加
AI はこれまでで最も難しい数学テストを受けます。結果はまちまちです
専門家は AI に 1 週間で解けるように 10 個の数学の問題を与えました。 OpenAI、研究者、愛好家全員が全力を尽くしました

暫定アーカイブ/寄稿者 (Getty Images 経由)
判決は次の通りのようだ: 人工知能は数学者に取って代わることはできない。
これは、「First Proof」チャレンジの直接の結論です。おそらく、大規模言語モデル (LLM) が数学的研究を行う能力をテストする最も強力なテストです。 2月5日に11人のトップ数学者によって決定され、テストの結果はバレンタインデーの早朝に発表された。チャレンジに含まれる 10 個の数学の問題のうち、人間の支援なしで AI によって解決された問題が何問あるかを言うのは時期尚早です。しかし、明らかなことが 1 つあります。それは、単一の LLM ですべてを解決できるものは存在しなかったということです。
最初の証明の背後にある数学者は、AI 10 の「補題」を導入しました。これは、より大きな結果につながる小さな定理を表す数学用語です。これらの問題は現役の数学者の得意分野であり、優秀な大学院生に与えられるような小さな問題です。スタンフォード大学の数学教授で初証明チームのメンバーでもあるモハメド・アブザイド氏によると、数学者らは標準的な手法を組み合わせただけではなく、解くのにある程度の独創性が必要となる問題を目指していたという。
科学ジャーナリズムの支援について
この記事を気に入っていただけた場合は、受賞歴のあるジャーナリズムをサポートすることを検討してください。 購読 購読を購入することで、今日の世界を形作る発見やアイデアに関するインパクトのあるストーリーを未来に確実に届けることができます。
この課題は、AI の限界を浮き彫りにすると同時に、数学コミュニティ内で台頭しつつある AI 愛好家のサブカルチャーも浮き彫りにしています。数学に特化したオンライン掲示板やソーシャルメディアアカウントは、一流の数学者や不正な大学院生らの証言と思われる証言で溢れていた。そして、ChatGPIT の作成者である OpenAI を含む AI スタートアップ企業が、LLM への数学教育にいかに真剣に取り組んでいるかを強調しました。
「これほど多くの活動があるとは予想していませんでした」とアブザイド氏は言う。 「AI企業がこれほど真剣に受け止め、これほどの労力を注ぐとは予想していませんでした。」
First Proof チームは土曜日の早朝に 10 の課題に対する解決策を明らかにし、問題を解決するために LLM を取得しようとした自身の経験について投稿しました。彼らは、AI があらゆる問題に対して信頼できる証明を生成できることを発見しましたが、正解したのは 9 番目と 10 番目の問題の 2 つだけでした。そして、9番目の問題とほぼ同じ証明がすでに存在していました。最初の問題も「汚染」されていました。証明のスケッチは、著者でありチームメンバーであり、2014 年のフィールズ賞受賞者であるマーティン・ヘアラーの Web サイトからアーカイブされていました。しかし、LLM は依然としてギャップを埋めることができませんでした。
アブザイド氏は、LLMが提示した証拠のスタイルは特に驚くべきものだったと述べている。 「私が AI システムから見た真の解決策には、19 世紀の数学の風味があります」と彼は言います。 「しかし、私たちは21世紀の数学を作ろうとしているのです。」
社外向けのプレゼンテーションはそれほど良くはありませんでした。一部のプレゼンテーションではさまざまな量の人的入力が使用されているようですが、その多くは数学者によって精査された 1 週間にわたる会話の結果であるようです。重要なのは、最初の証明ルールでは人間による数学的入力やチェックが許可されていないということです。
「人間が関与すると、どこまでが人間で、どこまでが AI であるかをどうやって決めるのでしょうか?」ハーバード大学のドワイト・パーカー・ロビンソン数学教授であり、最初の証明を確立した数学者の一人であるローレン・ウィリアムズ氏は言う。
OpenAIは土曜日にその成果を公開したが、これは人間の数学者からの「専門家のフィードバック」と連携した最新の社内AIモデルを使用した1週間にわたるスプリントの結果だった。同社の首席科学者であるジェイコブ・パチョッキ氏はソーシャルメディアへの投稿で、同社のソリューションの10のうち6は「正しい可能性が高い」と信じていると述べた。数学者たちはすでに、これら 6 つのうち少なくとも 1 つに穴がある可能性を指摘しています。
AI が人間の支援をどれだけ受けたかは別として、ほとんどのプレゼンテーションはかなりしっかりしたでたらめであるように見えます。挑戦が終わる前から、当初は信頼できると思われていた解決策の多くがすでに専門家によって疑問視されていました。
提出された内容が専門家によって適切に審査されるまでには数日かかります。そして、証明が実際に「オリジナル」であるかどうかを判断することは、それが正しいかどうかを判断することよりもさらに困難です。 「数学において全く前例のないものは何もありません」と、最初の証明チームの一員ではなかったトロント大学の数学者ダニエル・リットは言う。
「私たちはこれを実験として考えています。私たちの目標はフィードバックを得ることでした」とアブザイド氏は言う。チームは、より厳格な管理を伴う第 2 ラウンドを計画しており、詳細は 3 月 14 日に発表されると書いています。
AI の進歩を追跡してきた一部の数学者にとって、精彩を欠く結果は彼らの予想と一致します。 「公開されているモデルから明らかに正しい解決策が 2 ~ 3 つあると予想していました」とリット氏は言います。 「10人だったら、私にとってはとても驚いただろう。」
それでも、数か月前までは、研究レベルの問題に対する有効な解決策を AI から得ることすらおそらく不可能でした。フランスのソルボンヌ大学の数学者スコット・アームストロング氏は、「ショックを受けているという話を同僚からすでに聞いている」と話す。 「これらのツールは数学を変えるために登場しており、それは今起きています。」
しかし、AI の成果を注意深く観察している他の人たちにとって、それは良い結果ではありませんでした。
「モデルたちは苦戦していたようです」と、最初の証明チームの一員ではなかったケンブリッジ大学の大学院生、ケビン・バレトは言う。彼らは最近、ハンガリーの数学者パウル・エルデシュが提起した一連の課題であるエルデシュ問題の 1 つを解決するために AI を使用しました。 「正直に言うと、はい、少しがっかりしました。」
科学のために立ち上がる時が来た
この記事が気に入っていただけましたら、サポートをお願いいたします。 科学的アメリカ人 彼は 180 年にわたって科学と産業の擁護者としての役割を果たしてきましたが、今がその 2 世紀の歴史の中で最も重要な瞬間かもしれません。
私もその一人でした 科学的アメリカ人 私は 12 歳から会員であり、私の世界観を形作るのに役立ってきました。 科学 いつも私を教育し、楽しませてくれて、私たちの広大で美しい宇宙に対する畏敬の念を抱かせてくれます。あなたにとっても同じようになれば幸いです。
もしあなたが 同意する 科学的アメリカ人あなたは、私たちの報道が有意義な研究と発見に焦点を当てていることを保証するために協力してください。私たちは、アメリカ全土の研究所を危険にさらす決定について報告するリソースを持っています。そして、科学の価値があまりにも頻繁に認識されている現在、私たちは新進の科学者と現役の科学者の両方をサポートします。
その代わりに、必要なニュースが得られます。 魅力的なポッドキャスト、素晴らしいインフォグラフィック、 ニュースレターをお見逃しなく、ビデオもぜひご覧ください。 挑戦的なゲーム、そして科学の世界からの最高の執筆とレポート。あなたもできます メンバーシップを誰かにプレゼントします。
私たちが立ち上がり、なぜ科学が重要なのかを示すことがこれほど重要な時期はありません。その使命において私たちをサポートしていただければ幸いです。



