Evaluation

『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開(後編)

こんにちは。 SB Intuitions で LLM の評価を担当している 岡 照晃、柴田 知秀 です。 本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA(Japanese Multiple Choice QA, ジャムシーキューエー)』[岡+, 25]を前後編に分けて紹介しています。 前…

『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開(前編)

こんにちは。SB Intuitions で LLM の評価を担当している 岡 照晃、柴田 知秀 です。 本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA(Japanese Multiple Choice QA, ジャムシーキューエー)』[岡+, 25]を紹介します。 JamC-QA は日本固有の…

Sarashina の性能評価

SB Intuitions の 岡 照晃、李 凌寒、水本 智也、柴田 知秀 です。 本記事では Sarashina の性能評価について解説します。 Sarashina は SB Intuitions で開発している日本語の大規模言語モデル(Large Language Model; LLM)です。 LLM の学習は一般に事前…

日本語テキスト埋め込みベンチマークJMTEBの構築

TL;DR JMTEB とは 評価結果 はじめてのJMTEB ベンチマークを用いた分析例: 正規化に関する考察 おわりに 付録 TL;DR 日本語テキスト埋め込みベンチマークJMTEBを構築・公開しました。2024年5月現在,6タスク・16データセットで構成されています。 データセッ…