INTERSPEECH 2024に論文が採択されました

以下の論文がINTERSPEECH 2024に採択されました。

Investigation of look-ahead techniques to improve response time in spoken dialogue system

Masaya Ohagi, Tomoya Mizumoto, Katsumasa Yoshikawa

 

論文の概要

本論文では大規模言語モデルを用いた音声対話システムにおける問題の一つである応答速度の遅さを改善するために、ユーザーの返答を先読みする手法を提案しています。

提案システムのユースケース

提案システムは大きく分けて先読みモジュールとマッチングモジュールの二つから構成されます。

先読みモジュールはシステムが音声発話を行なっている間に、次にユーザーが何をいうかを予測し、それに対する返答を事前に生成しておきます。

続いてマッチングモジュールはユーザーの発話が終わった後に、ユーザーの返答の予測が当たっていたかを確認し、当たっていた場合は事前に生成しておいた返答を返します。

既存の大規模言語モデルを用いた対話システムはユーザーが話し終わった後に返答を作成するため返答の生成時間がかかっており、返答までに不自然な間が生まれることが多くありました。しかしながら提案システムでは先読みが成功した場合はわずかなマッチング時間のみで返答を返すことができます。

この提案システムは実対話をもとにした評価データ上で一定の有効性が示されました。

さらなる詳細につきましては論文の公開、また本論文の詳細に関するテックブログの公開をお待ちください。お読みいただきありがとうございました。