Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開

概要 SB Intuitionsでは、大規模視覚言語モデル（Vision-Language Model; VLM）の開発に取り組んでおり、これまでに公開時点で日本語ベンチマークにおいて国内最高性能であったSarashina2-Visionシリーズを公開しています。この度、アカデミアや産業界にお…

#VLM

2025-09-16

WildGuardTestJP: 日本語ガードレールベンチマークの開発

1. はじめに Responsible AIチームのRyo Bertolissi、Pride Kavumba、Huy Nguyen、綿岡晃輝です。大規模言語モデル（LLM）が急速に進化する中で、その出力の安全性を確保するガードレールシステムの重要性が高まっています。しかし、この分野の研究やリソー…

2025-09-09

『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（後編）

Evaluation LLM

こんにちは。 SB Intuitions で LLM の評価を担当している岡照晃、柴田知秀です。本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA（Japanese Multiple Choice QA, ジャムシーキューエー）』[岡+, 25]を前後編に分けて紹介しています。前…

#evaluate #LLM

2025-09-09

『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）

Evaluation LLM

こんにちは。SB Intuitions で LLM の評価を担当している岡照晃、柴田知秀です。本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA（Japanese Multiple Choice QA, ジャムシーキューエー）』[岡+, 25]を紹介します。 JamC-QA は日本固有の…

#evaluation #LLM

2025-08-20

Sarashina-Embedding-v2-1B: 日本語に特化した指示を付与できるテキスト埋め込みモデル

Embeddings

TL;DR sarashina2.2-1Bをベースに対照学習したテキスト埋め込みモデルを構築クエリに対して指示文で付与することで、タスク毎にテキストベクトルを調整可能 JMTEBベンチマークで最高水準のスコアを達成(2025年7月28日時点) 特にRetrieval、STS、Rerankingタ…

2025-06-20

ICML 2025に論文が採択されました

Publications

機械学習のトップカンファレンスである International Conference on Machine Learning (ICML) 2025において、以下の論文が採択されました。 Scaling Laws for Upcycling Mixture-of-Experts Language Models Seng Pei Liew, Takuya Kato, Sho Takase 論文：…

2025-05-26

日本語ModernBERTの開発: トークナイザと性能の関係編 (3/3)

概要こんにちは、SB Intuitions株式会社インターンの塚越です。先日、日本語・英語合わせて約4.4T tokensを学習した日本語ModernBERTというモデルを構築・公開しました。公開したモデルがどんなモデル、どんな性能なのかについては日本語ModernBERTの開発…