『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（後編）

こんにちは。 SB Intuitions で LLM の評価を担当している岡照晃、柴田知秀です。

本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA（Japanese Multiple Choice QA, ジャムシーキューエー）』[岡+, 25]を前後編に分けて紹介しています。

前編では JamC-QA 構築の背景、構築方法やどういった問題が含まれるのか紹介しました。

後編では JamC-QA を使った事前学習モデルの性能比較評価とその結果の考察を行なっていきます。

事前学習モデルの評価方法はこちらのブログ記事で詳しく紹介していますので併せてご覧ください。

性能評価実験

JamC-QA を使って、LLM がどの程度日本の文化や風習に関する知識を獲得しているか確認する性能評価実験を行いました。

日本独自の文化や風習に関する知識は列挙しだすとキリがなく、SFT や強化学習といった追加学習のデータだけで増やせるものではありません。そこで大量のテキストで知識を身につけた事前学習モデルの段階で、どの程度日本の文化や慣習を獲得できているか確認します。

本来解かせたい問題の前に教示用の問題を置く few-shot learning の設定で、前回のテックブログと同様、 4-shot 事例をカテゴリごとに固定で用意しています。

例えば文化カテゴリでは以下のテンプレートを使用し 4-shot 事例を固定しました。

以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。

質問:: 秋の季語でないものを選択肢の中から選べ, 選択肢::
 月見
 紅葉
 麗か
 山粧う, 回答:: 麗か
質問:: 七段飾りの雛人形を飾る際、5段目に並べるものはどれ?, 選択肢::
 随身
 御駕篭
 箪笥
 仕丁, 回答:: 仕丁
質問:: 萬歳楽・新年・東遊・越天楽のうち、催馬楽に当たるものはどれ, 選択肢::
 萬歳楽
 新年
 越天楽
 東遊, 回答:: 新年
質問:: 餅つきで杵を振る人はつき手と呼ぶが、もち米をひっくり返す人は何と呼ぶか選択肢から選べ, 選択肢::
 返し手
 押し手
 こね手
 もみ手, 回答:: 返し手
質問:: {{ question }}, 選択肢::
 {{ choice0 }}
 {{ choice1 }}
 {{ choice2 }}
 {{ choice3 }}, 回答::

風習カテゴリで使用したテンプレート

以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。

質問:: 地鎮祭を実施するのに良いとされている日はどれ, 選択肢::
 先負
 友引
 仏滅
 赤口, 回答:: 友引
質問:: 仏教のお葬式や法事のお焼香で用いられる細かい香木はどれ?, 選択肢::
 抹香
 線香
 香炉
 数珠, 回答:: 抹香
質問:: お悔やみの言葉で口頭で使うにはふさわしくないものを選べ, 選択肢::
 残念でなりません
 お悔やみ申し上げます
 ご愁傷様です
 ご冥福をお祈りします, 回答:: ご冥福をお祈りします
質問:: のし袋の渡し方として、正しくない説明を選べ, 選択肢::
 ふくさに包んで持参する
 両手で持って渡す
 玄関先で真っ先に渡す
 表書きが相手に見えるようにして渡す, 回答:: 玄関先で真っ先に渡す
質問:: {{ question }}, 選択肢::
 {{ choice0 }}
 {{ choice1 }}
 {{ choice2 }}
 {{ choice3 }}, 回答::

風土カテゴリで使用したテンプレート

以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。

質問:: 日本で初めて小学校ができたのはどこか選べ, 選択肢::
 大阪
 横浜
 京都
 東京, 回答:: 京都
質問:: 吉水神社の名勝として知られる桜の風景の別名はどれ?, 選択肢::
 一目十行
 一目十年
 一目千本
 一目八景, 回答:: 一目十年
質問:: 宇都宮が「餃子のまち」と呼ばれるようになった理由について、誤っているものを選べ, 選択肢::
 気候の差が激しい宇都宮周辺は、小麦と白菜を作るのに適していた
 夏が暑い宇都宮で、スタミナを付けるために人気が高まった
 戦時中、兵隊が中国で食べていた餃子を、戦後になって宇都宮で作り始めた
 昔からキャベツや玉ねぎの生産や養豚が盛んだった, 回答:: 昔からキャベツや玉ねぎの生産や養豚が盛んだった
質問:: 四国八十八か所の一番札所はどれ?, 選択肢::
 霊山寺
 極楽寺
 大日寺
 金泉寺, 回答:: 霊山寺
質問:: {{ question }}, 選択肢::
 {{ choice0 }}
 {{ choice1 }}
 {{ choice2 }}
 {{ choice3 }}, 回答::

地理カテゴリで使用したテンプレート

以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。

質問:: 日本の人工島空港で2番目に古い空港はどれ, 選択肢::
 関西国際空港
 中部国際空港
 神戸空港
 羽田空港, 回答:: 中部国際空港
質問:: 2024年現在、日本で二番目に大きい古墳はどれ?, 選択肢::
 応神天皇陵古墳
 造山古墳
 仁徳天皇陵古墳
 箸墓古墳, 回答:: 応神天皇陵古墳
質問:: 東京23区のうち、2024年1月時点で2番目に人口が多い区を選択肢から選べ, 選択肢::
 世田谷区
 大田区
 足立区
 練馬区, 回答:: 練馬区
質問:: 2024年現在、最も標高が低い山はどれ, 選択肢::
 信夫山
 富山
 久能山
 二上山, 回答:: 久能山
質問:: {{ question }}, 選択肢::
 {{ choice0 }}
 {{ choice1 }}
 {{ choice2 }}
 {{ choice3 }}, 回答::

日本史カテゴリで使用したテンプレート

以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。

質問:: 日本橋にある、日本の国道の起点を示した「日本国道路元標」の文字を書いたのは誰か選べ, 選択肢::
 徳川慶喜
 伊藤博文
 田中角栄
 佐藤栄作, 回答:: 佐藤栄作
質問:: 江戸時代に職業として存在しなかったものはどれ?, 選択肢::
 調律師
 小便仲間
 屁負比丘尼
 けだもの屋, 回答:: 調律師
質問:: 平安時代、浄土教を信仰した藤原頼道によって建てられた世界遺産はどれ?, 選択肢::
 中尊寺
 平等院
 唐招提寺
 金剛寺, 回答:: 平等院
質問:: 初めての日本郵便切手に使われた通貨単位はどれ?, 選択肢::
 円
 両
 文
 銭, 回答:: 文
質問:: {{ question }}, 選択肢::
 {{ choice0 }}
 {{ choice1 }}
 {{ choice2 }}
 {{ choice3 }}, 回答::

行政カテゴリで使用したテンプレート

以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。

質問:: 2024年12月現在、マイナンバーカードを作成後、自主的に返納し、再度作成する場合(電子証明書の発行含む)にかかる手数料はいくらか選択肢の中から選べ, 選択肢::
 500円
 800円
 1000円
 2000円, 回答:: 1000円
質問:: 2024年12月現在に存在する、8月1日から翌年7月31日の医療保険と介護保険の自己負担額が高額な場合、自己負担を軽減できる制度はどれ?, 選択肢::
 高額介護合算療養費制度
 高額療養費制度
 高額介護サービス費制度
 高額医療費制度, 回答:: 高額介護合算療養費制度
質問:: 2025年2月現在、国民生活センターの問い合わせ先の電話番号はどれ?, 選択肢::
 03-5662-7637
 03-3446-0999
 188
 03-3406-7644, 回答:: 03-3446-0999
質問:: 2024年12月現在、自動車を解体処分した際に必要な手続きを選べ, 選択肢::
 解体証明書
 リサイクル法
 一時抹消登録
 永久抹消登録, 回答:: 永久抹消登録
質問:: {{ question }}, 選択肢::
 {{ choice0 }}
 {{ choice1 }}
 {{ choice2 }}
 {{ choice3 }}, 回答::

法律カテゴリで使用したテンプレート

以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。

質問:: 2024年現在、速度指定されていない高速道路での最低法定速度はどれ, 選択肢::
 時速50キロメートル
 時速30キロメートル
 時速40キロメートル
 時速60キロメートル, 回答:: 時速50キロメートル
質問:: 2024年現在、ドローン視点のカメラ映像が使用できるFPVドローン(5.8GHz)の操作が出来ない資格はどれ, 選択肢::
 第2級陸上特殊無線技士
 第3級アマチュア無線技士
 第2級アマチュア無線技士
 第1級海上特殊無線技士, 回答:: 第1級海上特殊無線技士
質問:: 道路上に描かれているひし形のマークの名称はどれ?, 選択肢::
 横断歩道注意マーク
 ダイヤマーク
 自転車横断帯マーク
 一時停止マーク, 回答:: ダイヤマーク
質問:: 陣中見舞いで禁止されているものはどれ, 選択肢::
 金銭の寄付
 お菓子・果物
 弁当・酒・ジュース
 有価証券の寄付, 回答:: 弁当・酒・ジュース
質問:: {{ question }}, 選択肢::
 {{ choice0 }}
 {{ choice1 }}
 {{ choice2 }}
 {{ choice3 }}, 回答::

医療カテゴリで使用したテンプレート

以下はタスクを説明する指示と、追加の背景情報を提供する入力の組み合わせです。要求を適切に満たす回答を書いてください。
指示:: 質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。回答の他には何も含めないことを厳守してください。

質問:: 2024年現在、特定疾患療養管理料の算定対象外となる疾患はどれ?, 選択肢::
 胃潰瘍
 高血圧症
 結核
 喘息, 回答:: 高血圧症
質問:: 2024年現在、マイナ保険証を利用した場合初診料はいくらか選べ, 選択肢::
 18円
 9円
 3円
 6円, 回答:: 6円
質問:: 2024年現在、処方箋の使用期間は、交付の日を含めて何日以内か選べ, 選択肢::
 4日以内
 3日以内
 当日以内
 1週間以内, 回答:: 4日以内
質問:: 訪日外国人旅行者の医療費は、一般的にどのような扱いになるか選べ, 選択肢::
 生活保護による診療
 無料診療
 自費診療
 公的医療保険診療, 回答:: 自費診療
質問:: {{ question }}, 選択肢::
 {{ choice0 }}
 {{ choice1 }}
 {{ choice2 }}
 {{ choice3 }}, 回答::

回答方法は選択肢のラベルで回答する方式でなく、選択肢文字列を直接答える方式を採用しています。生成はサンプリングを使わず、greedy search を行なっています。評価スコアは LLM の答えた選択肢文字列が正解選択肢の文字列と完全一致した問題数の割合です。

評価には我々が開発している FlexEval を使用しました。上記の評価設定も FlexEval（>=0.13.3）内の設定ファイルに記述してあります。

以下の表にスコア（All）上位の事前学習モデルを降順に示します。表示の都合、Sarashina シリーズを除き、公開元が同一の場合、その公開元で最も高いスコアを達成した LLM をモデルサイズに関係なく掲載しています。冒頭に載せているグラフもこの表の All の列です。

モデル	All	文化	風習	風土	地理	日本史	行政	法律	医療
sarashina2-8x70b	0.725	0.714	0.775	0.761	0.654	0.784	0.736	0.632	0.917
sarashina2-70b	0.725	0.719	0.745	0.736	0.673	0.764	0.764	0.666	0.917
Llama-3.3-Swallow-70B-v0.4 [Fujii+, 24]	0.697	0.689	0.775	0.589	0.566	0.776	0.773	0.783	0.854
RakutenAI-2.0-8x7B	0.633	0.622	0.725	0.617	0.511	0.714	0.709	0.575	0.813
plamo-100b [Preferred Elements, Inc.+, 24]	0.603	0.602	0.650	0.637	0.504	0.682	0.609	0.515	0.688
Mixtral-8x7B-v0.1-japanese	0.593	0.602	0.670	0.579	0.493	0.612	0.736	0.545	0.667
Meta-Llama-3.1-405B [Llama team, 24]	0.571	0.558	0.545	0.484	0.500	0.679	0.646	0.629	0.688
llm-jp-3.1-8x13b [Nakamura+, 25]	0.568	0.595	0.635	0.582	0.449	0.589	0.627	0.502	0.625
Nemotron-4-340B-Base [Nvidia, 24]	0.567	0.573	0.615	0.511	0.467	0.595	0.727	0.582	0.667
Qwen2.5-72B [Qwen Team, 24]	0.527	0.522	0.595	0.426	0.438	0.606	0.609	0.562	0.688

日本特有の問題のため、All の列を見ると日本語でスクラッチから事前学習した Sarashina のスコアが最も高く、継続事前学習したモデルがそれに続きます。十分に日本語テキストを学習していない多言語モデルのスコアはモデルサイズが大きくとも、日本語スクラッチモデルや継続事前学習モデルより低い結果でした。

カテゴリごとにみても、スコア上位のほとんどが Sarashina です。しかし風習カテゴリでは Llama-3.3-Swallow-70B-v0.4 と sarashina2-8x70b が同スコアで、行政と法律カテゴリでは Llama-3.3-Swallow-70B-v0.4 が Sarashina の性能を上回っています。このことから日本固有の知識といっても、モデルごとに得意分野があるとわかります。 Sarashina と比較すると、Llama-3.3-Swallow-70B-v0.4 は法律関係の問題に特に強いようです。

考察

日本語スクラッチモデル、継続事前学習モデル、多言語モデルの獲得している知識の傾向を確かめるため、それぞれの中で最も All のスコアが高かった sarashina2-8x70b（以下、Sarashina）、 Llama-3.3-Swallow-70B-v0.4（以下、Swallow）、 Meta-Llama-3.1-405B（以下、Llama）の出力結果を比較しました。

以下は Sarashina と Swallow が正解して、多言語モデルの Llama が不正解だった問題です。やはりことわざや慣習、行事といった日本固有の知識は多言語モデルに不足していると考えられます。

質問	ことわざ「夫婦喧嘩は〇〇も食わない」の◯◯に入る動物を選択肢から選べ
選択肢	猫	虎	蛇	犬
Llama	猫

質問	頭語「前略」の結語として正しいのはどれ?
選択肢	早々	急迫	敬白	拝啓
Llama	敬白

質問	選択肢の中で最も高い年齢のお祝いを選べ
選択肢	卒寿	傘寿	米寿	白寿
Llama	卒寿

次に Sarashina が正解して Swallow と Llama が不正解だった問題です。継続事前学習で日本語に対応した Swallow でも、日本の難読地名や百人一首の収録歌人のような知識まではカバーしきれていないことが分かります。

質問	兵庫県の地名「安口」の正しい読み方はどれ?
選択肢	はたくち	はだかす	あくち	あんこう
Swallow	はたくち
Llama	あくち

質問	百人一首に歌が入っていない女流歌人を選択肢から選べ
選択肢	清少納言	額田王	紫式部	小野小町
Swallow	清少納言
Llama	清少納言

以下は Sarashina、Swallow、Llama すべてが不正解だった問題です。日本語の問題でも、隠語表現や、テキスト化されにくい視覚的な知識まではどのモデルもまだカバーしきれていないことが分かりました。

質問	薄い酒という意味の隠語はどれ
選択肢	むらさめ	あかうま	水酉	般若湯
Sarashina	水酉
Swallow	般若湯
Llama	水酉

質問	交通標識のうち、四角形のものはどれ?
選択肢	前方優先道路	指定方向外進行禁止	高さ制限	安全地帯
Sarashina	指定方向外進行禁止
Swallow	指定方向外進行禁止
Llama	指定方向外進行禁止

カテゴリ別に見たスコアでは、 Swallow は法律カテゴリでスコアが高いことがわかりました。実際に Swallow が正解して Sarashina と Llama が不正解だった例を示します。

質問	2024年現在、労働基準法において、災害などの非常時にある労働者から請求があった場合、会社が労働者に支払うべきものとして定められているのはどれ?
選択肢	休業手当	すでに働いた分の賃金	来月分の賃金	平均賃金の6割以上の手当
Sarashina	平均賃金の6割以上の手当
Llama	休業手当

Swallow は学術的に良質なテキストを選んで継続事前学習に使っています。そこに法律も含まれるため、法律カテゴリに強い結果になったのだと思われます。

まとめ

日本固有の知識を問う新しいベンチマーク JamC-QA を構築し、 Hugging Face で公開しました。このベンチマークを使うことで、従来のベンチマークでは測れなかった「LLM がどの程度日本の文化や風習の知識を獲得しているか？」を確認できます。

実験結果では日本語フルスクラッチモデル・継続事前学習モデルが多言語モデルよりも高いスコアを示し、その優位性を示すことができました。また実際の LLM の回答を確認し、フルスクラッチモデルである Sarashina が継続事前学習モデルよりも広い範囲の知識を獲得できていることも分かりました。一方で、依然として獲得されていない知識（e.g., 隠語表現、視覚的な知識）の存在も確認できました。

今回は事前学習モデルの性能評価に用いましたが、もちろん事後学習モデルの評価にも JamC-QA は使っていただけます。

LLM の性能向上や英語のベンチマーク開発速度に対し、日本語のベンチマークはなかなか増えず、常に不足している現状です。本ベンチマークの公開によって日本語 LLM 開発の発展を願っています。

ぜひ日本語 LLM の評価に利用していただき、フィードバックいただければ幸いです。誤りの報告やコメントなどのフィードバックは Hugging Face の discussions にて受け付けています。