WildGuardTestJP: 日本語ガードレールベンチマークの開発

1. はじめに Responsible AIチームのRyo Bertolissi、Pride Kavumba、Huy Nguyen、綿岡晃輝です。大規模言語モデル（LLM）が急速に進化する中で、その出力の安全性を確保するガードレールシステムの重要性が高まっています。しかし、この分野の研究やリソー…

2025-09-09

『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（後編）

Evaluation LLM

こんにちは。 SB Intuitions で LLM の評価を担当している岡照晃、柴田知秀です。本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA（Japanese Multiple Choice QA, ジャムシーキューエー）』[岡+, 25]を前後編に分けて紹介しています。前…

#evaluate #LLM

2025-09-09

『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）

Evaluation LLM

こんにちは。SB Intuitions で LLM の評価を担当している岡照晃、柴田知秀です。本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA（Japanese Multiple Choice QA, ジャムシーキューエー）』[岡+, 25]を紹介します。 JamC-QA は日本固有の…

#evaluation #LLM

SB Intuitions TECH BLOG

2025-09-01から1ヶ月間の記事一覧

WildGuardTestJP: 日本語ガードレールベンチマークの開発

『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（後編）

『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）