2025-09-01から1ヶ月間の記事一覧

WildGuardTestJP: 日本語ガードレールベンチマークの開発

1. はじめに Responsible AIチームのRyo Bertolissi、Pride Kavumba、Huy Nguyen、綿岡晃輝です。 大規模言語モデル(LLM)が急速に進化する中で、その出力の安全性を確保するガードレールシステムの重要性が高まっています。しかし、この分野の研究やリソー…

『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開(後編)

こんにちは。 SB Intuitions で LLM の評価を担当している 岡 照晃、柴田 知秀 です。 本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA(Japanese Multiple Choice QA, ジャムシーキューエー)』[岡+, 25]を前後編に分けて紹介しています。 前…

『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開(前編)

こんにちは。SB Intuitions で LLM の評価を担当している 岡 照晃、柴田 知秀 です。 本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA(Japanese Multiple Choice QA, ジャムシーキューエー)』[岡+, 25]を紹介します。 JamC-QA は日本固有の…