はじめに

こんにちは、SB Intuitions株式会社の福地成彦、董于洋、梅本和俊、平子潤、新田洸平です。2月28日〜3月5日に兵庫県神戸市で開催された DEIM2026 第18回データ工学と情報マネジメントに関するフォーラム(第24回日本データベース学会年次大会)に当社は今回初めてゴールドスポンサーとして協賛いたしました。スポンサーとしてブース展示と技術報告[1]を行い、口頭・ポスター発表を3件[2,3,4]行いました。本記事では発表の様子や気になった論文について紹介していきます。
DEIM 2026 の概要
DEIM は、日本データベース学会・電子情報通信学会 データ工学研究専門委員会・情報処理学会 データベースとデータサイエンス研究会が主催であり、日本データベース学会の年次大会です。
開催形式は 2023 年以降、オンライン → オンサイトの直列ハイブリッド形式となっています。前半 3 日間をオンライン開催で一般(口頭)発表セッション、中日を移動日、後半 2 日間をオンサイト開催でインタラクティブ発表(ポスター)発表セッションが開催されます。今年のオンサイト会場は神戸国際会議場・展示場であり、運営の方から 901 名が参加されていたことが報告されていました。
一般・インタラクティブ発表では、5 つのトラックに分かれ様々なトピックについて議論されています。トラックは次のとおりです:「Track 1: 自然言語処理・機械学習基礎」「Track 2: ビッグデータ基盤技術・データセキュリティ・プライバシ」「Track 3: 情報検索・情報推薦・ソーシャルメディア」「Track 4: メディア処理・HCI・人間中心情報マネジメント」「Track 5: 高度なデータ利活用・ドメイン応用(医療情報、教育、地理情報等)」
研究発表以外にも、特定の研究トピックに関するチュートリアル、スポンサー企業による技術報告・ランチョンセミナー、学生企画イベントなどの様々なイベントが開催されているのも DEIM の興味深い点の一つです。


SB Intuitions の発表
適応的プロンプト最適化に基づく次発話推薦 [2]

本研究では、対話システムにおけるコミュニケーションの円滑化と入力支援を目的に、ユーザの次発話を先読みして推薦するタスクに取り組んでいます。提案手法は、この推薦タスクを「対話文脈の分類」「ユーザ意図の計画」「次発話の生成」という 3 つのサブタスクに分解し、それぞれを担当する LLM のプロンプトを LLM-as-a-Judge のフィードバックに基づき最適化します。実世界の対話データによる評価の結果、最適化によって文字数制約を満たしながら、自然かつ多様なユーザ発話を推薦できることを確認しました。
ブラックボックスな検索エンジンに対するクエリ拡張に特化したSLMの強化学習 [3]

クエリ拡張はユーザの質問文を変換・拡張することで検索精度を向上させる技術で、最近では LLM を用いたクエリ拡張の手法がいくつか提案されています。本研究では、特定の未知の検索エンジンに特化したクエリ拡張 SLM を構築するための、合成データを使った強化学習のパイプラインを提案しました。日本語データセットを用いた実験で、強化学習によって SLM が学習対象にしたブラックボックスな検索エンジンに対して適応的なクエリ拡張をできるようになったことを確認しました。
気になった発表
日本語検索タスクにおける機械翻訳テストコレクションの妥当性検証 [5]
SB Intuitions でも日本語特化情報検索用のモデルの学習や評価ベンチマーク構築などの研究を進めていますが、英語圏に比べて日本語の情報検索の評価ベンチマークが少ないため、英語で構築された評価データを日本語を機械翻訳した評価データを利用するケースあります。しかし、その評価の妥当性には検証の余地がありました。この研究では、英語の情報検索ベンチマークを日本語に機械翻訳した場合の翻訳モデルの性能が情報検索の評価スコアに与える影響を実験的に分析しています。日本語の検索モデルの評価ベンチマーク自体の妥当性を検証した研究として、意義がある研究だと思いました。
明日から使える!研究効率化ツール入門 [6]
『明日から使える!研究効率化ツール入門』というチュートリアルは、かなり有益な内容でした。このチュートリアルでは、Overleaf や GitHub などの基盤的ツールに加え、GitHub Copilot、Cursor、Claude Code 等の AI 支援環境を研究実務へどう組み込むかが具体的に示されていました。特に、AI を単なる補助ではなく、コーディングや論文執筆のワークフロー全体を再設計する存在として捉える視点が印象的でした。利便性だけでなく、研究倫理や最終責任の所在にも言及されており、有用かつ示唆に富む内容でした。スライドはこちらに公開されていました:明日から使える!研究効率化ツール入門 - Speaker Deck
LLMによる多段階プロンプト最適化を用いた動機づけ面接カウンセリングチャットボットの構築 [7]
この研究は、助言を押し付けず相手の自発的な行動変化を引き出す「動機づけ面接」の原則に基づき、高品質なカウンセリングチャットボットの構築を目指したものです。技術的なポイントは、対話の進行を管理するメタLLMと応答生成を担うワーカー LLM を連携させ、専門的な評価基準に基づく LLM-as-a-Judge の自動フィードバックによって両者のプロンプトを最適化しているところです。この最適化ループにより、LLM に特有の冗長性やハルシネーションの抑制に加え、共感などの人間らしい対話スキルの向上が報告されています。SB Intuitions からもプロンプト最適化に関する研究発表を行っていたことから、関連分野の動向として特に興味深く感じられました。
LLMのUnknown-Unknownを捉えるHuman-in-the-Loopエンティティマッチング [8]
この研究では、LLM を用いたエンティティマッチングにおける矛盾駆動型の能動学習について検証しています。具体的には、推移律による矛盾から誤った事例を抽出し、人手でアノテーションして学習に活用しています。モデルの確信度に依らずルールベースで誤り事例を収集してフィードバックする Human-in-the-Loop は、LLM 学習においても有用であることがわかり非常に興味深かったです。
クエリ形式とランキング手法が検索結果のスタンス分布に与える影響の分析 [9]
この研究では、クエリが「肥満は病気ですか?」「肥満は病気じゃないですか?」というような賛否が分かれるときに、検索結果の文書における「肥満は病気です」「肥満は病気じゃないです」のような賛否を持つ文書の分布が、クエリ形式とランキングモデルでどのように変化するかを分析しているものでした。クエリ形式は「質問形式」「キーワード形式」、ランキングモデルは「レキシカルベース(BM25)」「セマンティックベース(E5)」「LLMベース(GPT-4o)」となっており、賛否のスタンス分布が変化しクエリ形式やモデルによって偏るというもので着眼点と結果が非常に興味深かったです。
最後に
DEIM では、データベース基盤や情報検索等に加え、LLM に関する研究も数多く発表されていました。それらの研究はデータ工学ならではの観点やアプローチから取り組まれており、非常に興味深く感じました。SB Intuitions では、大規模なデータや基盤を活用し日本の文化や習慣を理解した LLM の構築に精力的に取り組んでいます。今後も DEIM をはじめとするデータ工学分野の動向に着目していく所存です。
採用情報
SB Intuitionsでは国産 LLM の研究開発に加え、今回紹介したような情報検索分野(特に DeepResearch, RAG)の研究開発を進めています。ご興味がありましたら、以下の求人ページから是非ご応募ください。
参考文献
[1] 董 于洋, 福地 成彦. "[技術報告] SB Intuitionsがフルスクラッチで作るLLM, RAG, Agent". 第18回データ工学と情報マネジメントに関するフォーラム(DEIM2026). 2026.
[2] 梅本 和俊, 福地 成彦. "適応的プロンプト最適化に基づく次発話推薦. 第18回データ工学と情報マネジメントに関するフォーラム(DEIM2026)". 2026.
[3] 福地 成彦, 平子 潤, 梅本 和俊. "ブラックボックスな検索エンジンに対するクエリ拡張に特化したSLMの強化学習". 第18回データ工学と情報マネジメントに関するフォーラム(DEIM2026). 2026.
[4] 谷口 令, 肖 川, 董 于洋, 小山田 昌史, 鬼塚 真. "大規模言語モデルの層間注意スコア分散を用いた動的なトークン選択層決定手法". 第18回データ工学と情報マネジメントに関するフォーラム(DEIM2026). 2026.
[5] 岩間 悠莉, 加藤 誠. "日本語検索タスクにおける機械翻訳テストコレクションの妥当性検証". 第18回データ工学と情報マネジメントに関するフォーラム(DEIM2026). 2026.
[6] 浦西 友樹, 松井 勇佑, 米谷 竜. "明日から使える!研究効率化ツール入門". 第18回データ工学と情報マネジメントに関するフォーラム(DEIM2026). 2026.
[7] 橋口 友哉, 黒木 空翔, 大島 裕明. "LLMによる多段階プロンプト最適化を用いた動機づけ面接カウンセリングチャットボットの構築". 第18回データ工学と情報マネジメントに関するフォーラム(DEIM2026). 2026.
[8] 岡山 紘汰, 伊藤 寛祥, 森嶋 厚行. "LLMのUnknown-Unknownを捉えるHuman-in-the-Loopエンティティマッチング". 第18回データ工学と情報マネジメントに関するフォーラム(DEIM2026). 2026.
[9] 池元 太陽, 山本 岳洋. "クエリ形式とランキング手法が 検索結果のスタンス分布に与える影響の分析". 第18回データ工学と情報マネジメントに関するフォーラム(DEIM2026). 2026.