機械学習のトップカンファレンスである International Conference on Machine Learning (ICML) 2025において、以下の論文が採択されました。
Scaling Laws for Upcycling Mixture-of-Experts Language Models
Seng Pei Liew, Takuya Kato, Sho Takase
論文:https://openreview.net/forum?id=ZBBo19jldX
コード:https://github.com/sbintuitions/sparse-upcycling-scaling-laws
論文の概要
本論文では大規模言語モデル(LLM)の学習コストを削減するために、より小さなモデルを再利用する(upcycling)ことによって、より大きく効率的なモデル(MoE)を構築する際のスケーリング則を調査しました。

特に、モデルを再利用する時に、より多くのデータを与えると、性能は単純に向上し続けるのではなく、元のモデルがどのように訓練されたかに影響されるという新しい効果を発見しました。
この結果に基づき、upcyclingを最大限に活用するためのガイドラインを提示しています。

さらなる詳細につきましては公開されている論文を参照ください。お読みいただきありがとうございました。