2025-01-01から1年間の記事一覧

Sarashina-Embedding-v1-1B: 日本語LLMをベースにしたテキスト埋め込み(2/2)~発展編~

基本編はこちら→Sarashina-Embedding-v1-1B: 日本語LLMをベースにしたテキスト埋め込み(1/2)~基本編~ TL;DR 10億パラメータの日本語言語モデルであるSarashina2.1-1Bを事前学習モデルとした日本語テキスト埋め込みモデルを学習。 弱教師あり学習と教師あり学…

Sarashina-Embedding-v1-1B: 日本語LLMをベースにしたテキスト埋め込み(1/2)~基本編~

TL;DR Sarashina-Embedding-v1-1Bという日本語特化テキスト埋め込みモデルを開発し、モデルを公開. 12億パラメータの日本語言語モデルであるSarashina2.1-1Bを事前学習モデルとした日本語テキスト埋め込みモデル。 コンテキスト長は8192トークンで、日本語特…