Interspeech 2024の参加報告

こんにちは、SB Intuitions株式会社の大萩雅也と吉川克正です。9月1-5日にギリシャのコス島にて開かれた音声系では最大規模の国際会議の一つであるInterspeech 2024に参加し発表を行いました。

本記事では発表の内容、また国際会議の様子について紹介していきます。

目次

Interspeechってどんな会議?

Interspeechは音声処理分野における世界最大の国際会議で、International Speech Communication Association(ISCA)が主催しています。Interspeech2024は第25回目の節目となる大会でした。音声処理は歴史的に日本が強い研究分野の一つであり、今大会も日本の大学・企業からの参加者が多くみられました。そして音声処理分野も自然言語処理分野に負けず劣らず活況で、Interspeech2024では1031件(採択率48.22%)もの論文が採択されています。

 

発表論文

Figure1

今回発表した論文は対話システムにおける応答速度の遅延を改善する手法を提案したものです。既存の対話システムはユーザーが話し終わってから返答の生成を行うため、システム側が話し始めるまでに生成時間分の不自然なギャップが生まれていました。

本論文ではこの問題に対して「あらかじめユーザーの発話を予測しそれに対するシステムの発話を事前に生成する」新たな手法を提案しました。

具体例を挙げて説明します。上記のFigure 1ではシステムの「交通機関は何を使いますか?」という質問に対してユーザーが「車ですかね」と答えています。既存の対話システムではユーザーが話し終わった後に生成を行うため「駐車場が近くにあります」と答えるまでに時間がかかっていました。

それに対して本手法では、システムが質問しユーザーがそれに対する答えを返すまでの間にあらかじめユーザーの返答を複数パターン予測し、それぞれに対するシステムの返答を準備しておきます。例で言うと本当のユーザー発話は「車ですかね」ですが、これに対し「車で行きます」「電車で行きます」など様々な予測を立てておきます。さらにそれぞれの予測に対し「この発話がきたらこう返そう」という風にシステム側の発話をユーザーが話し終わるまでに生成しておきます。

これにより、ユーザーが話し終えた時にはすでにユーザーの発話予測とそれに対するシステムの返答がいくつか準備された状態になっています。

その後システムは発話予測が当たっていたかのマッチングを行い、当たっていた場合は事前に準備した発話を返すのですが、このマッチング時間(0.01秒)は既存の対話システムにおける生成時間(最低でも1秒)に比べると微小であり、予測が成功した場合はほぼノータイムで返答を返すことが可能となります。

日本語は特に話者が話し終わってから次の話者が話し始めるまでの時間が短い言語であると言われており[1]、今回の手法のようなレスポンス速度を改善する手法は重要であると言えます。

今回の論文の課題としては、予測の精度にまだまだ改善の余地があるというところが挙げられます。今後も更なる改善に取り組んでいきたいと思います。

参加記

今回のInterspeechはギリシャのコス島で行われました。元々の予定ではイスラエルで行われる予定でしたが現在の状況を考慮してコス島に急遽変更になったそうです。

コス島は西洋医学の父であるヒポクラテスが生まれた島であり、そこから医学発祥の地と呼ばれています。ただ現在は観光用のリゾートという印象が強く、会場周りにもリゾートホテルが立ち並びます。

 

初日のチュートリアルも含めた5日間、音声に関するさまざまな研究がオーラルやポスター、デモセッションで発表されます。私は自然言語処理が専門で他の分野に詳しくないこともあり、正直最初の方はまるで何を言ってるかわかりませんでした。ただそのような初学者向けにも丁寧なチュートリアルがあり、会期中にそれぞれの発表の意図くらいは掴めるようになっていきました。ありがたいですね。

Interspeechの発表を見て回った印象としては、モデルのアーキテクチャを作り込んでいる研究がNLPの学会に比べて多いという風に感じました。自然言語処理ではLLMの台頭以降モデルのアーキテクチャはある程度サイズが大きなモデル(Llamaなど)に拘束されていることが多く、それらが持つ汎用的な言語性能をどうさまざまなタスクに応用しているかの研究が多くなっているように感じています。これは推測が強くなってしまいますが、そもそも音声データは言語データに比べてデータ集めのハードルが高いということもあり、資源の少なさをどうモデルアーキテクチャの方で解決するかという問題設定が置かれることが多いのかなと思いました。

私のポスター発表は水曜の対話システム周りのセッションで行われました。会場の端っこの方ということもあり、最初5分くらいは誰も来ずどうなることかと思いましたがそこからはほぼ途切れることなく色々な方に来ていただけました。対話システムのセッションということもあり、実応用に向けたさまざまな課題について話し合う有意義な議論ができたと感じています。

 

 

水曜にはSocial galaがありホテルのプール近くで食事会が行われました。こちらでは日本人同士はもちろんのこと、さまざまな国から来た研究者の方々と交流することができ楽しい時間を過ごすことができました。

 

 

音声系の学会には初めての参加でしたが非常に良い経験となりました。私が取り組んでいる対話システムはテキストだけでなく音声などさまざまなモーダルを組み合わせることが必要であり、これからも精力的に研究活動などしていければと思います。ぜひ来年のInterspeech2025でお会いできると嬉しいです。よろしくお願いします。

 

 

 

気になった論文

Mobile PresenTra: NICT Fast Neural Text-To-Speech System on Smartphones with Incremental Inference of MS-FC-HiFi-GAN for Law-Latency Synthesis

スマホ上でも高速で動く多言語音声合成モデルを構築した研究です。こちらはShow&Tellというデモ展示のブースで実際に触らせてもらったのですが本当に高速かつ読み上げ精度も高くて印象に残りました。APIを挟むとコネクションタイムの分遅延が生じ、またクラウド上の障害にも影響されるためこのようなローカルモデルの需要はこれからさらに盛り上がっていくことでしょう。

Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks

言語をターゲットとしたLLMにおいてはIn-Context Learning (ICL)と呼ばれるプロンプト内からタスクを学習する能力が確認されていますが、それがSpeech Language Model (SLM) においても確認されるかを検証した論文です。結果としてはbase modelにおいてはICLは確認できなかったが、warm upと呼ばれる工程を経ることにより一定のICL能力を持たせることは可能だったそうです。ICLはLLMの活用においては強力な武器となりうるため、今後もSLMやその他さまざまなモーダルにおける検証が続いていくでしょう。

Controlling Emotion in Text-to-Speech with Natural Language Prompts

この大会では音声で感情をどう扱うかという発表が非常に多く見られました。中でもこの研究は感情を乗せた音声を生成することに焦点を当てたものですが、話者の声と発話の韻律を別々にモデル化できる新しいアーキテクチャを提案しており、韻律の制御には自然言語プロンプトから抽出した埋め込みを使用するのが特徴です。さらに学習時にも感情的な音声データセットとテキストデータセットを統合し、各学習イテレーションで関連するプロンプトをランダムに選択することで、モデルの汎化性能を向上させる工夫もされています。音声・画像・テキストなどのマルチモーダル情報と人間の感情を紐づける技術は、我々の仕事でもより重要になっていくように思います。

ANIMAL-CLEAN – A Deep Denoising Toolkit for Animal-Independent Signal Enhancement

自然言語処理を専門にしていると、音声というと人間の言語を扱うのが当然のように感じていましたが、音声処理の分野では意外に動物の音声を扱うものをたくさんありました。この発表はノイズの多い自然界の動物の音声情報をどうやって処理するかという研究で、動物の種類に依存しない汎用的なノイズ除去モデルを作っています。提案法はNoise2Noise法を基にしており、クリーンな音声データがなくても学習可能で、多様な周波数帯や信号長の生物音響信号に対応できるようです。その結果、コウモリ、シャチ、チンパンジー、鳥類など様々な動物音声を扱うことに成功しています。また人間も動物の仲間ということで、ヒトの音声データを活用することで性能が向上することも述べられていたのには感心しました。

最後に

GPT-4oの発表により、マルチモーダルなAIに対する期待はますます向上しています。SB Intuitionsも社のミッションとしてマルチモーダルLLMを掲げており、これからも研究開発を通じてより自然かつ有用なAIとのインタラクションを実現していきたいと存じます。これからの発表にご期待ください。

参考文献

[1] T. Stivers, N. J. Enfield, P. Brown, C. Englert, M. Hayashi, T. Heinemann, G. Hoymann, F. Rossano, J. P. de Ruiter, K.-E. Yoon, and S. C. Levinson, “Universals and cultural variation in turn-taking in conversation,” Proceedings of the National Academy of Sciences, vol. 106, no. 26, pp. 10 587–10 592, 2009. [Online]. Available: https://www.pnas.org/doi/abs/10.1073/pnas. 0903616106