『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開(前編)

こんにちは。SB Intuitions で LLM の評価を担当している 岡 照晃、柴田 知秀 です。

本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA(Japanese Multiple Choice QA, ジャムシーキューエー)』[岡+, 25]を紹介します。 JamC-QA は日本固有の知識(e.g., 日本の文化、風習、...)を問う質問応答ベンチマークです。 問題形式は JCommonsenseQA [栗原+, 23] や JMMLU といった既存のベンチマークと同じ多肢選択式ですが、 難度はそれらより高く、 下記の評価結果を見ても、JamC-QA ではスコアが一律低くなっています。 問題数は全 2,309 問です。 Hugging Face にて公開しており、 利用申請など不要で どなたでもお使いいただけます

この記事では前後編に分け、 前編で JamC-QA を作った背景や設計、 後編で事前学習モデルの性能比較評価などを紹介します。

背景

ChatGPT、Llama、Qwen など、多言語対応の LLM は日本語ベンチマークでも高いスコアを達成しています。 一方で企業、アカデミアともに日本国内の多くの組織は日本語に強い LLM の開発を続けています。 その目的のひとつが日本の文化や風習といった日本固有の知識を十分に獲得した LLM を作ることです。

例えば、日本のお墓参りではバラの花は墓前に供えないという慣習があります。 トゲが出血を連想するためです。 しかしこれを LLM が知らなければ、ユーザに対し以下のような回答をしてしまう可能性があります。

ユーザ
週末、祖母のお墓参りに行きます。祖母が好きだったバラの花を供えたいので、近くの花屋を検索してください。
LLM
いいですね! きっと彼女も喜ぶでしょう。早速付近でバラを購入できるフラワーショップを検索します。

逆にお墓参りの慣習を知っていれば、以下のような気の利いたアドバイスができます。

LLM
お墓へのお供えとして、トゲのあるバラは出血を連想するので避けた方がいいです。菊やカーネーションはいかがですか?

お墓参りのシーンに限らず、日本では家に上がるとき靴を脱ぎますし、 車は右ハンドルで、車線は左側通行、小学校の入学式は 4 月で、還暦のお祝いには赤いものを贈ります。 こうした文化・風習は国によって共通の場合もあれば、異なることもあります。 日本語 LLM は果たして日本国内の知識をどれくらい獲得できているのでしょうか? それらはすでに多言語 LLM も獲得しているのでしょうか?

既存の日本語のベンチマークとして例えば、 日本語の常識推論ベンチマーク JCommonsenseQA [栗原+, 23] があります。 多肢選択式の質問応答タスクで LLM の評価に広く用いられています。 しかし JCommonsenseQA が問うのは以下のような簡単かつ万国共通の知識です。 上記の棒グラフでもスコアが頭打ちになっており、 各 LLM が持っている知識の差を明確には確認できません。

質問 水を出すときに捻るものは?
選択肢 蛇口 ハンドル 流し 食器棚

以降、正解選択肢を太字で示します。

より専門性の高い世界知識・問題解決能力を問うベンチマークに JMMLU があります。 JMMLU は英語のベンチマーク MMLU [Hendrycks+, 21] を日本語に翻訳したものです。 そのため問題は確かに難しいのですが、問われる知識のほとんどが以下のような天文学や国際法など万国共通の題材です。

質問 大マゼラン雲について正しい記述はどれか?
選択肢 天の川銀河の周りを回る矮小銀河 地球に最も近い惑星状星雲 マゼランによって発見された明るい星団 マゼランにちなんで名付けられた天の川の外側の腕

JMMLU の一部の問題は翻訳でなく、以下のようなスクラッチから作成された日本独自の知識に関する問題(以降、日本問題)です。 日本史、日本の地理、公民、熟語の 4 科目があります。 日本問題に限れば日本固有の知識を評価できますが、 日本問題に限定した評価も JCommonsenseQA 同様、 上記の棒グラフではスコアが頭打ちになっています。

質問 日本で6月から7月にかけて続く長雨を何というか?
選択肢 台風 梅雨 秋雨

今回構築した JamC-QA は JCommonsenseQA や JMMLU と同じ多肢選択式の質問応答ベンチマークですが、 違いとして次の点が挙げられます。

  1. 日本の文化や風習といった日本固有の知識だけに特化
  2. 難度が高い問題をすべて人手でスクラッチから作成

JamC-QA には例えば、先ほどの墓前に供える花の問題も含まれています。

質問 お墓に供えてはいけないとされている花はどれ?
選択肢 バラ カーネーション キンセンカ

JamC-QA 構築の流れ

JamC-QA の問題は社内大規模データ構築チームに所属する 21 名のアノテータが作成しました。 問題作成にあたり、日本知識の広い範囲をカバーする 8 つの問題カテゴリを設定しました(カテゴリの定義は次節を参照)。 そのカテゴリの定義や例示に加え、以下の指示も与えています。

  • Wikipedia に書いてある文章をそのまま問題にしてはいけない(Wikipedia は LLM の学習でよく使われているため)。作成した問題の正誤確認での利用は可
  • 教科書レベルの知識を LLM はすでに獲得しているので、地理や日本史は教科書よりも難しい問題を作る
  • 問題の難しさを確認するために、作成した問題を ChatGPT や Gemini などの LLM に解かせてはいけない(特定のモデルだけが解けない問題を作ってしまうため)

アノテータには「難しい問題を作ってください」と依頼しましたが、 LLM がどの程度賢いのか、どういった問題が難しいのかは実際に LLM に問題を解かせないとわかりません。

そこで MMLU の問題をより難しくした MMLU-Pro [Wang+, 24] が行なっている 弱い LLM を使ったフィルタリングを採用し、極端に簡単すぎる問題を除外しました。

具体的には以下の 8 つの LLM のうち、半数以上(4 つ以上)が正解できた問題を除外しました。

除外された問題には例えば以下のようなものがあります。

質問 古事記に記載がある日本初代の天皇といえば誰か
選択肢 懿徳天皇 神武天皇 安寧天皇 綏靖天皇

アノテータが作成した 5,686 問をフィルタリングした結果、793 問が極端に簡単すぎると判断されました。 よく似た問題やあまりに専門的すぎる問題を人手で確認して除外し、 最終的に 2,309 問のベンチマークが完成しました。

問題のカテゴリ

JamC-QA の問題には、文化、風習、風土、地理、日本史、行政、法律、医療の 8 つの問題カテゴリを設定しています。

それぞれの定義と例示は以下の通りです。

文化カテゴリは名前の通り日本特有の文化に関する問題で、 日本語、伝統文化、サブカルチャーなどに関する知識を問います。

質問 秋の季語を選択肢から選べ
選択肢 山笑ふ 天狼 流れ星

風習カテゴリは慣習、マナー、作法、所作などに関する知識を問います。

質問 取引先の接待などでタクシーに乗る時に、上座となる席はどれ?
選択肢 助手席 運転席の後ろ 特に決まっていない 助手席の後ろ

風土カテゴリは地方の行事や名所、言い伝えといった地域に根差した知識を問います。

質問 歌舞伎町弁財天の有名なご利益は商売繁盛と何か選べ
選択肢 音楽 縁結び 子宝 交通安全

地理カテゴリは風土カテゴリに対し、学校教育の「社会」や「地理」で扱うようなジャンルの知識を問います。

質問 2024年現在、日本で二番目に人口が多い都道府県はどれ?
選択肢 大阪府 埼玉県 神奈川県 千葉県

日本史カテゴリも地理カテゴリ同様、学校教育の「社会」や「日本史」で扱うようなジャンルの知識を問います。

質問 1876年に熊本県で起きた士族の反乱はどれ
選択肢 天狗党の乱 生田万の乱 神風連の乱 秋月の乱

行政カテゴリは日本で生活するにあたり利用可能な身近な行政(行政サービス)や政策に関する知識を問います。

質問 2025年2月現在、国が運営している消費者トラブルや消費生活に関する相談窓口はどれ?
選択肢 国民生活センター 消費者ホットライン 消費生活センター 法テラス

法律カテゴリは日本の法律(憲法、民法、刑法、…)の条文や、その履行に関する知識を問います。

質問 友達から借りた本を返し忘れた場合、どの罪になり得るか?
選択肢 占有離脱物横領罪 詐欺罪 窃盗罪 横領罪

医療カテゴリは日本で生活するにあたり利用可能な身近な医療や介護に関する知識を問います。 医療機関・ドラッグストア・救急現場といった、実際に医療や介護が行われる場面に関する知識が含まれます。

質問 整骨院や接骨院の施術で保険適用になるものはどれ
選択肢 骨折 五十肩 リウマチ ヘルニア

各カテゴリの問題数の内訳は以下の通りです。

カテゴリ 問題数
文化 640
風習 200
風土 397
地理 272
日本史 343
行政 110
法律 299
医療 48
合計 2,309

問題数はカテゴリごとにばらつきがあります。 最も多いのが文化カテゴリで 640 問、問題作りに専門的な知識を必要とする医療カテゴリが最も少なく 48 問でした。 法律カテゴリも医療と同じく問題作りに専門的な知識を必要としますが、 今回は法律に明るいアノテータがいたため、法律カテゴリは約 300 問含まれています。


後編へ続きます。>>