『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（後編）

Evaluation LLM

こんにちは。 SB Intuitions で LLM の評価を担当している岡照晃、柴田知秀です。本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA（Japanese Multiple Choice QA, ジャムシーキューエー）』[岡+, 25]を前後編に分けて紹介しています。前…

#evaluate #LLM

2025-09-09

『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）

Evaluation LLM

こんにちは。SB Intuitions で LLM の評価を担当している岡照晃、柴田知秀です。本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA（Japanese Multiple Choice QA, ジャムシーキューエー）』[岡+, 25]を紹介します。 JamC-QA は日本固有の…

#evaluation #LLM

2024-07-26

Sarashina の性能評価

LLM Evaluation

SB Intuitions の岡照晃、李凌寒、水本智也、柴田知秀です。本記事では Sarashina の性能評価について解説します。 Sarashina は SB Intuitions で開発している日本語の大規模言語モデル（Large Language Model; LLM）です。 LLM の学習は一般に事前…

2024-05-16

日本語テキスト埋め込みベンチマークJMTEBの構築

Embeddings Evaluation

TL;DR JMTEB とは評価結果はじめてのJMTEB ベンチマークを用いた分析例: 正規化に関する考察おわりに付録 TL;DR 日本語テキスト埋め込みベンチマークJMTEBを構築・公開しました。2024年5月現在，6タスク・16データセットで構成されています。データセッ…