学習率減衰なしの事前学習LLMにより、下流タスクで高い性能(ICLR 2026)

機械学習のトップカンファレンスである International Conference on Learning Representations (ICLR) 2026において、以下の論文が採択されました。

Pre-training LLM without Learning Rate Decay Enhances Supervised Fine-tuning

Kazuki Yano, Shun Kiyono, Sosuke Kobayashi, Sho Takase, Jun Suzuki

論文:https://openreview.net/forum?id=JnebU2QLdH

背景と問題意識

本論文では、大規模言語モデル(LLM)の事前学習における学習率スケジューラの役割を、教師ありファインチューニング(SFT)後の性能という観点から再検討しました。 これまで Cosine や Linear、WSD (Warmup-Stable-Decay) などの学習率減衰を伴うスケジューラが、事前学習における訓練データセットに対する損失を最小化するために広く採用されてきました。 しかし実応用で本当に重要なのは、事前学習後モデル単体の性能ではなくSFTなどの事後学習を経た最終モデルの性能です。 実際、近年の研究[1][2]では、事前学習の性能が高いモデルが必ずしもSFT後に最良の性能をもたらすとは限らないことが指摘されています。 にもかかわらず、現在の標準的なプラクティスでは各学習段階ごとに独立に最良のモデルを選ぶ、すなわち事前学習段階では事前学習損失やゼロショット性能を基準に最良のスケジューラを選び、それをSFTに引き渡すという流れが一般的です。 本研究ではこの前提を疑い、事前学習とSFTを一貫したパイプラインとして捉えた場合に最適な学習率スケジューラは何かを探ります。

Warmup-Stable-Only(WSO)スケジューラ

そこで私たちが着目したのが、WSDから学習率減衰期間を取り除き、warmup後は最大学習率を最後まで維持する Warmup-Stable-Only(WSO) スケジューラです。WSDはwarmup・安定期・減衰期の3フェーズから成りますが、WSOは減衰期を省略し、最大学習率をそのまま学習終了まで保持します。

LRスケジューラとSFT後性能の比較

実験1: 事前学習 → SFT の2段階設定

Llama 3アーキテクチャに基づく1Bおよび8Bパラメータのモデルを、学習率スケジューラとして WSO、WSD、Cosine、Linearの4種を用い事前学習させ、それらのモデルに対しSFTを行いました。 結果として、事前学習段階とSFT後で性能の逆転現象が観察されました。 事前学習の検証ロスやゼロショットタスク性能では、学習率を0まで減衰させたスケジューラが最も良い結果を示しました。 しかしSFT後の下流タスクの平均スコアでは、WSOが1B・8Bの両モデルサイズで一貫して最高の性能を達成しました。

実験2: 中間学習を含む3段階設定

近年のLLM開発(OLMo 2[3], Llama 3[4] など)では、事前学習とSFTの間に中間学習(mid-training)を挟む多段学習パイプラインが一般的になっています。 本研究では、この中間学習段階における学習率スケジューラの影響も調査しました。 OLMo 2の設定に倣い、事前学習後に中間学習を行い、その後SFTを実施しました。中間学習における学習率についても、減衰ありと減衰なしの2パターンを検証しました。 結果は2段階設定と同様の傾向を示しました。 中間学習の検証損失やタスク性能では減衰型が優位であるにもかかわらず、SFT後は事前学習・中間学習ともにWSOを適用した構成が最も高い性能を達成しました。 また、事前学習で減衰を適用した場合でも、中間学習で減衰を避ける方がSFT性能の低下を抑えられることが分かり、どの段階においても学習率減衰はSFT性能を損なう方向に働くことが示されました。

損失地形の分析: なぜWSOが有効か

事前学習中のSharpness推移

WSOがSFTで優位に立つ理由を理解するため、事前学習過程における損失地形の幾何構造を解析しました。 転移学習の先行研究[5][6]では、損失地形の「鋭さ」を表すSharpnessが、モデルの下流タスクへの適応性と深く関わることが知られています。 パラメータが平坦な領域にあるモデルは、ファインチューニング時のパラメータ更新によって損失値が大きく変動しないため、事前学習で獲得した知識を保持しつつ新しいタスクに適応しやすいとされています。 Sharpnessの定量化にはいくつかの方法があり、例えば損失関数に対するヘシアンの最大固有値やトレースをSharpnessとする方法が知られています[7][8]。本研究では、最適化や汎化に関する先行研究 [5][6] の慣例に倣い、全パラメータ次元にわたる曲率をスカラー値として要約できるヘシアンのトレースをSharpnessの指標として採用しました。 実際に事前学習中のSharpnessを定期的に測定したところ、Cosine や Linear スケジューラでは学習率の減衰に伴いSharpnessが上昇し続け、WSDでも減衰期に入ると急激にSharpnessが増加する一方、WSOでは学習全体を通じて低いSharpnessが維持されることが分かりました。 最終的に、減衰型スケジューラのモデルはWSOの2〜3倍のSharpnessを示しました。 また、事前学習後のSharpnessとSFTスコアの間にも負の相関が確認されており、この平坦さがWSOの高い適応性を支えていると考えられます。

おわりに

これらの結果は、モデル公開の観点でも実践的な示唆を与えます。 公開される事前学習済みモデルをWSOで学習しておくことで、利用者はファインチューニングを通じてより高い性能を引き出しやすくなります。 シンプルに適用でき、SFT後の性能を底上げできるWSOスケジューラは、より適応しやすいLLMを構築するための有望な選択肢を提供します。 さらなる詳細につきましては公開されている論文を参照ください。お読みいただきありがとうございました

参考文献

[1] Springer et al. 2025. Overtrained Language Models Are Harder to Fine-Tune.
[2] Sun & Dredze, 2025. Amuro & char: Analyzing the relationship between pre-training and fine-tuning of large language models.
[3] OLMo Team, 2024. 2 OLMo 2 Furious.
[4] AI at Meta. 2024. The llama 3 herd of models.
[5] Ju et al. 2022. Robust fine-tuning of deep neural networks with hessian-based generalization guarantees.
[6] Lie et al. 2023. Same pre-training loss, better downstream: Implicit bias matters for language models.
[7] Dinh et al. 2017. Sharp minima can generalize for deep nets.
[8] Kaur et al. 2023. On the maximum hessian eigenvalue and generalization.