1
1

いつ? 人工知能 科学者たちは、(AI) が人間のコミュニケーターのように振る舞うことを許可されると、より正確な結論に達する、より効果的な議論のパートナーになることを発見しました。
人間のコミュニケーションには、停止と開始、感情の中断、不確かな沈黙、曖昧さがたくさんあります。一方、AI はコンピューターの形式的な通信スタイルに従い、コマンドを処理し、応答を作成し、出力を送信し、次のコマンドを辛抱強く待ちます。
Sei と彼の同僚は、大規模言語モデル (LLM) がコンピュータ化されたコミュニケーションの行ったり来たり順番待ちの性質に従う必要がないフレームワークを提案しました。代わりに、LLM には、順番を外して発言したり、他の発言者の話を遮ったり、沈黙したりすることを許可する性格が割り当てられる場合があります。
研究者らは、AI コミュニケーションのより人間らしい方法を生み出すことに加えて、そのような柔軟性が標準的な AI よりも複雑なタスクの精度を高めることにつながることを発見しました。
チームは、古典心理学の「ビッグ 5」性格タイプ (オープン性、誠実性、外向性、協調性、神経質主義) に従って、LLM に特性を統合し始めました。
次のステップは、次の応答が始まる前に完全な応答を生成するのではなく、文ごとの応答を処理するようにテキストベースの LLM を再プログラムすることで、研究者が議論の流れを注意深く制御できるようにしました。また、固定の発話順序、動的発話順序、および割り込みを有効にした動的発話順序の 3 つの会話設定の間で結果を比較しました。後者により、モデルはインタラクションをリアルタイムで理解して処理できる「即時性スコア」を計算できるようになりました。
会話の緊急度スコアはいくつかの方法で表現されました。モデルが間違いやディスカッションにとって重要だと考えた点に気付いたために議論がエスカレートした場合、誰の順番で発言するかに関係なく、モデルはすぐにそれを提起することができました。緊急度スコアが低い場合、モデルはそれを追加する具体的なものが何もないことを意味すると解釈し、それによって会話の「混乱」を軽減しました。
Sei 氏は Live Science に対し、チームは 1,000 の質問を使用してパフォーマンスを評価したと語った 包括的なマルチタスク言語理解 (MMLU) ベンチマーク – 科学や人文科学を含むさまざまな分野からの問題が含まれる AI 推論テスト。
「エージェントが最初に間違った回答をしたとき、全体的な精度は、固定順序のディスカッションでは 68.7%、動的順序では 73.8%、中断が許可された場合では 79.2% でした」と Sei 氏は述べています。 「2 人のエージェントが最初に不正確な回答をしたより難しい設定では、固定順序で精度が 37.2%、動的順序で 43.7%、中断を有効にした場合で 49.5% でした。」
パーソナリティ駆動モデルが従来の AI チャットボットよりも正確であることを示した後、セイ氏は現在、これらの新しい発見を実際にどのように適用できるかを検討したいと考えています。研究チームは、グループ内の意思決定において「デジタルパーソナリティ」がどのような役割を果たすことができるかを理解するために、創造的なコラボレーションを特徴とするさまざまな分野に研究結果を適用する予定です。
「将来的には、AIエージェント同士、そして共同作業環境で人間との対話がますます増えていくでしょう」とセイ氏は語った。 「私たちの研究結果は、必要に応じて介入する能力を含め、性格に基づいて形成された議論の方が、厳密にターン制で同様に丁寧なやり取りよりも良い結果をもたらす場合があることを示しています。」