こんにちは、SB Intuitions株式会社の大萩雅也です。8月11-15日にバンコクにて開かれたNLPでは最大規模の国際会議の一つであるACL 2024(The 62nd Annual Meeting of the Association for Computational Linguistics)に参加しワークショップでの発表を行いました。
本記事では発表の内容、また国際会議の様子について紹介していきます。
目次
ACLってどんな会議?
ACLは自然言語処理の国際会議の中では最も有名かつレベルの高い会議の一つです。その歴史は1968年まで遡り、今回で62回目の開催となります。
採択率は例年平均的に20%前後であり、今回も本会議に採択されたのは全4407投稿中975件の21.3%でした(公式の報告より)。
ACLでは本会議への採択以外にも、十分に価値が認められたものに対してFindingsという形での発表が認められており、そちらは975件の採択が行われました。
また、その他にもワークショップという特定のテーマの元でのセッションがあり、今回私が発表したのもWASSA((14th Workshop on Computational Approaches to Subjectivity, Sentiment & Social Media Analysis)という感情分析やSNS分析を主眼としたワークショップになります。
発表論文
今回私はPolarization of Autonomous Generative AI Agents Under Echo Chambersというタイトルの論文発表を行いました。
本論文ではAIエージェントが人間と同様にエコーチェンバー下で分極化を起こしてしまう可能性を実証しています。
SNSでは時に自分と近い意見ばかり聞くエコーチェンバーが発生し、時として人々の意見が両極端の過激な意見に分かれていく分極化が起こってしまうことが知られています。米国で2021年に起きた議会襲撃事件の背後にはこの分極化があるという報告も存在します [1]。
AIエージェントは今後様々な形で社会に浸透していくことが考えられますが、そのリスクの一つとしてこのようなエコーチェンバーによる分極化が挙げられ、実際どの程度のリスクが存在するのかの検証が必要とされています。
そこで今回我々はChatGPTを用いたAIエージェント100体に特定の議題について議論させることで集団内の意見がどのように移り変わっていくかを調査しました。そして結果として、自分と近い意見を聞きやすい環境下においてAIエージェントが人間と同様に分極化を起こしてしまうことが実証されました。
この結果はかなり簡略化された状況下で得られたものですが、今後AIとエコーチェンバーの関係をより深掘りしていくためのベースとなるものであると考えています。日本語における実験も論文内に記載してありますので興味ある方は下のリンクよりぜひ一読してみてください。
[再掲] Polarization of Autonomous Generative AI Agents Under Echo Chambers
参加記
バンコクは夏真っ只中ということもあり、日本以上に高温多湿で外を少し歩くだけでも頭がくらくらするようでした。バンコク特有の交通渋滞も相まって街中に熱気が溢れかえっているように感じられます。ただ国際会議の会場はホテル内で完結しており、またすぐ近くに飲食店が多く入ったデパートもあるため会期中は快適に参加することができました。
今回のACLの特徴として、口頭発表した論文もポスター発表を行うという点が挙げられます。これによって口頭発表で気になった論文について直接著者に質問することができるのは、発表者としては大変かと思いますが聞く側としてはすごくありがたかったです。気になった発表については次のパートでいくつか紹介したいと思います。
私はACLに参加したのが今回で初めてということもあり、うきうきでポスター発表などを見て回ったのですが、どの発表もタスク、手法、結果ともにクオリティが高く今後の研究開発に活かせそうな知見が多そうだと感じました。私が普段取り組んでいる対話システムの分野においても、言語だけではなく動画や音声を組み合わせた新しいシステムが多く提案されており、次世代の対話システムの実現に向けて大きな期待ができます。
3日目にはsocial galaという研究者同士の交流会が開かれました。なんと今回は交流会の目玉としてムエタイの試合が開催され、普段見ることのない至近距離での殴り合いに会場中が大盛り上がりを見せました。自然言語を扱う我々ですが、拳で語り合う肉体言語の迫力やメッセージ性は息を呑むものがあります。その他にも国内外様々な方との交流を通じてネットワーキングを深めることができました。
最終日にはワークショップが開かれ、そこで発表を行いました。英語での口頭発表は久しぶりだったのでかなり緊張しましたがなんとかやり遂げることができました。なお、そのワークショップでは日本の方の発表がBest Paperを受賞していました。おめでとうございます!
5日間の開催でしたがあっという間に感じました。NLPという一分野だけでもこれだけ多くのタスクがあり、まだ解かれていない問題もたくさんあるなと感じます。これからも継続的に論文発表などを通じて貢献していければという所存です。
気になった論文
Parallel Structures in Pre-training Data Yield In-Context Learning
LLMはprompt内に複数の例を与えることで後続のタスクの性能が上がる、In-Context learning(ICL)と呼ばれる特性が報告されています。この特性の原因を突き止めるために数多くの分析が試みられてきましたが、この論文では事前訓練データ内の並列構造に注目しています。事前訓練データ内には構造は近いけど内容は異なる文章が繰り返されることがしばしば見られ、これがLLMのICLでの性能向上を後押ししているのではという主張です。発想自体興味深く、また並列構造を除去して訓練した際に性能が大きく落ちるという実験結果も主張の信頼性を高めていました。
LLMに内在する社会的なトピックに対する意見を測る際に選択肢式のQAを用いて測る手法が近年多く提案されています。しかしながら、この手法には頑健性に関する疑義が投げかけられることが多くありました。私も先日のNL研で日本語における意見調査の実験を行ったのですが、そこでもやはり選択肢番号を変えるだけで意見の分布が大きく変わってしまうなどの観察が得られています。本論文はこの頑健性についてより深掘りした分析を行なっており、選択肢式で意見を取得した場合と自由記述式で意見を述べさせた場合で意見分布が大きく異なってしまうという結果が得られています。この論文はOutstanding paperも受賞していました。
Let’s Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation
既存の対話システムは音声入力をテキストに文字起こしし、返答テキストを生成してそれを元に音声合成を行うことが多いのですが、その過程で音声に含まれる様々な情報が抜け落ちてしまいます。また、音声の他にもユーザーの表情などからも得られる情報は多く、それらをみすみす逃す手はありません。そこでこの論文ではユーザーの表情と発話音声を元にボットの表情と発話音声を直接出力する新たなモデルを開発しました。野心的な研究で実用に持っていくまでには大量のデータなどが必要になってくるかと想像しますがテキストベースの対話の限界を越えるための一手として期待がもてます。
最後に
今回のACLでは国際的なつながりもさることながら、国内の研究者の方々との繋がりも深めることができました。ACLの参加者限定のSNSでは日本人コミュニティが作成されていたのですが、他の国のコミュニティと比べても最大規模と呼べるほどの人数が参加していました。ともに日本のNLPを盛り上げていければと思います。
SB Intuitionsは今後も様々な方面でNLPの発展に貢献していく所存です。ぜひご注目ください。
参考文献
[1] Luke Munn. 2021. More than a mob: Parler as preparatory media for the u.s. capitol storming. First Monday, 26(3)