Embeddings

Sarashina-Embedding-v2-1B: 日本語に特化した指示を付与できるテキスト埋め込みモデル

TL;DR sarashina2.2-1Bをベースに対照学習したテキスト埋め込みモデルを構築 クエリに対して指示文で付与することで、タスク毎にテキストベクトルを調整可能 JMTEBベンチマークで最高水準のスコアを達成(2025年7月28日時点) 特にRetrieval、STS、Rerankingタ…

日本語テキスト埋め込みベンチマークJMTEBの構築

TL;DR JMTEB とは 評価結果 はじめてのJMTEB ベンチマークを用いた分析例: 正規化に関する考察 おわりに 付録 TL;DR 日本語テキスト埋め込みベンチマークJMTEBを構築・公開しました。2024年5月現在,6タスク・16データセットで構成されています。 データセッ…