2025-01-01から1ヶ月間の記事一覧

Sarashina-Embedding-v1-1B: 日本語LLMをベースにしたテキスト埋め込み(1/2)~基本編~

TL;DR Sarashina-Embedding-v1-1Bという日本語特化テキスト埋め込みモデルを開発し、モデルを公開. 12億パラメータの日本語言語モデルであるSarashina2.1-1Bを事前学習モデルとした日本語テキスト埋め込みモデル。コンテキスト長は8192トークンで、日本語特…