LLMの盗用を守るフィンガープリンティング

はじめに

東京科学大学情報理工学院修士1年の山辺翔二郎と申します。2024年8月19日より、SB Intuitions株式会社 R&D本部 Responsible AIチームにてインターンシップを経験させていただきました。本記事では、インターンシップ中に取り組んだ研究テーマである「大規模言語モデルの知的財産保護のためのフィンガープリンティング手法」について、その概要と成果をご紹介いたします。

なお、本研究の詳細については、arXivにて論文を公開しております。

LLMの盗用防止の重要性

近年、大規模言語モデル（LLM）の開発には、膨大なデータセットと計算資源が必要となっています。その結果として、LLMの学習コストは急激に増大し、モデル自体が極めて価値の高い知的財産（IP）となってきています。このような状況を受け、多くの開発者がモデルを公開する際に適切なライセンスを付与するなど、知的財産の保護を試みています。

しかしながら、現実にはライセンスを無視したモデルの商用利用に対して、権利侵害の立証が困難な状況にあります。そのため、LLMの所有者が自身の権利を主張するための保護技術が強く求められています。

フィンガープリンティング

フィンガープリンティングは、モデルに特定の入出力パターン（フィンガープリント）を秘密裏に記憶させる技術です。これにより、モデルが無断で利用された場合でも、このフィンガープリントの存在を証明することで所有権を主張することが可能となります。

従来の研究[1, 2, 3]では主にファインチューニングへの対策に焦点が当てられていましたが、近年では新たな脅威としてモデルマージ[4]の問題が浮上してきています。モデルマージとは、複数のモデルのパラメータを組み合わせて新しいモデルを作成する手法です。この手法はファインチューニングと比べて低コストで実現可能であり、知的財産の盗用手段としての危険性が特に高いと考えられています。

こうした背景から、今回の研究では特にモデルマージに対して強い耐性を持つフィンガープリンティング手法であるMergePrintを提案しました。MergePrintの概要を下図に示します。例えば入力として"r4jqht4bnog"、出力として"Sarashina"といったフィンガープリントをモデルに埋め込みます。このときフィンガープリントを埋め込んだモデルが他のモデルとマージされた場合でも、MergePrintで埋め込んだフィンガープリントが保持され続けます。さらに、異なるフィンガープリントを持つモデル同士をマージした場合でも、それぞれのフィンガープリントが共存可能です。

モデルの所有者は事前にモデルの名前やランダムな文字列など、一般には使用されない特徴的なフィンガープリントを設計しておくことで、公開されたモデルに対してフィンガープリントの存在を確認し、所有権を主張することができます。

モデルマージの仕組みと特徴

モデルマージは、複数の異なる能力を持つエキスパートモデルを組み合わせることで、各モデルの優れた能力を継承した単一のモデルを作成する手法です。MergePrintではこのモデルマージが行われても消失しないフィンガープリンティングを目的としているため、まずはモデルマージの基本的な概念について説明します。なお、本研究ではモデルマージにおいて一般的に採用される設定である、すべてのエキスパートモデルが同一のベースモデルからファインチューニングされて作成された場合のみを考慮しています。

最も基本的なモデルマージは、各モデルとベースモデルのパラメータの差の加重平均を計算する手法[5]です。ベースモデルのパラメータを, 各エキスパートモデルのパラメータをとすると、マージされたモデルのパラメータは以下のようになります:

ここではマージ係数であり、各モデルの特性をどの程度の割合で最終的なモデルに反映させるかを決定します。

このような単純な操作によって、各エキスパートモデルの性能を継承したマージモデルを作成することができます。なお、より高度な手法として、マージによるパラメータの衝突を回避するためにパラメータをスパース化するなどの手法なども提案されています。

フィンガープリンティングが満たすべき要件

次に先行研究[6]に基づいてフィンガープリンティング手法が満たすべき6つの要件を定義します。

(R1) Robustness: フィンガープリントはモデルマージなどが行われても除去されてはいけない
(R2) Harmlessness: フィンガープリントの埋め込みによってモデルの性能が低下してはいけない
(R3) Effectiveness: フィンガープリントが埋め込まれたモデルは、公開前にフィンガープリントの存在を示していなけらばならない
(R4) Reliability: 誤った主張を避けるために、所有するモデル以外にはフィンガープリントが出力されてはいけない
(R5) Efficiency: フィンガープリンティングの実装と実行は容易でなければならない
(R6) Confidentiality: 埋め込んだフィンガープリントは特定されてはならない

特に(R1) Robustness, (R2) Harmlessness, (R4) Reliabilityが重要な要件になります。Robustnessが欠如すると、モデルマージによってフィンガープリントが消失し、所有権の主張が不可能になってしまいます。Harmlessnessが不十分な場合、モデルの性能低下を引き起こすため、開発者にとって実用的な選択肢とはなりません。また、Reliabilityは所有権主張の信頼性を担保する上で極めて重要です。ベースモデルなど、他のモデルでもフィンガープリントが出現してしまと、所有権の証明として意味をなしません。

以上の要件のもと、MergePrintでは、特にこれら3つの要件の充足に重点を置いて設計を行いました。以下では、フィンガープリントを埋め込む対象である所有権を主張したいモデルをオーナーモデルと呼ぶことにします。

提案手法：MergePrint

MergePrintは主に以下の2つの操作で構成されています：

入力の最適化
擬似マージモデルに対するオーナーモデルの最適化

フィンガープリントの埋め込みは、2番目の操作である擬似マージモデルに対するオーナーモデルの最適化で実現します。1番目の操作である入力の最適化では、フィンガープリントの埋め込みが性能に与える影響を抑制します。以下では、それぞれの操作を具体的に説明していきます。

フィンガープリント入力の最適化

擬似マージモデルに対する最適化では、オーナーモデルを学習することでフィンガープリント入出力 $(x, y)$ を埋め込みます。しかし、フィンガープリントは本質的にモデルにとって特異な入出力であるため、学習初期の損失が非常に大きくなります。これは大幅なパラメータ更新を必要とし、モデルの性能低下を招く可能性があります。

この問題に対処するため、オーナーモデルの学習前に、LLMに対するadversarial exampleの生成手法であるGCG（Greedy Coordinate Gradient）[7]を用いて出力 $y$ に対する損失を最小化するように入力 $x$ を最適化します。これにより、学習初期の損失を可能な限り小さくし、オーナーモデルの更新回数を減少させます。なお。GCGは勾配に基づいて適切なトークンを選択し、モデルが特定の出力を選択するように入力を最適化していく手法です。

ただし、入力の最適化のみでは不十分である点に注意が必要です。GCGによる入力最適化だけでは、adversarial exampleの転用性により、フィンガープリントが他のモデルでも出現してしまう可能性があります。これは上述したReliability要件を満たさないフィンガープリントとなってしまいます。そこで、入力の最適化は適度な範囲にとどめ、その後でオーナーモデルを若干更新することで、適切なフィンガープリントの埋め込みを実現します。

擬似マージモデルに対するオーナーモデルの最適化

MergePrintの目的は、マージモデルに特定のフィンガープリント入出力 $(x, y)$ を出現するようにオーナーモデルを最適化することです。しかし、モデル所有者は盗用時にどのようなエキスパートモデルが使用されてマージモデルが作成されるかを予測できません。そこで、直接マージモデルに対してオーナーモデルを最適化するのではなく、以下の式で表される擬似マージモデルに対してオーナーモデルの最適化を行うアプローチを採用しました：

ここではオーナーモデルのパラメータを表します。この擬似マージモデルは、盗用時に使用される可能性のある他のエキスパートモデルを含まないため、オーナーモデルの学習時に作成可能です。最適化では、通常のファインチューニングと同様に、入力 $x$ に対するマージモデルの出力分布と出力 $y$ のクロスエントロピーを最小化するようにオーナーモデルを更新します。

ここで「なぜ実際のマージモデルではなく擬似マージモデルでの最適化で十分なのか」という疑問が生じるかもしれません。この点について、モデルマージの本質的な特性から説明できると考えています。モデルマージは複数のモデルの能力を損なうことなく統合する手法です。そのため、擬似マージモデルに対して継承されるフィンガープリントの能力は、追加のモデルがマージされても維持されると考えられます。この直感的な理解は、後述する実験結果によって裏付けられています。

MergePrintの処理フローまとめ

MergePrintの処理フローは以下の通りです：

モデルオーナーが指定した出力 $y$ に対して入力 $x$ を最適化
得られた入出力ペア $(x, y)$ が擬似マージモデルで出現するようにオーナーモデルを最適化

より詳細な理論的背景や具体的な実装については、arXivに公開している論文をご参照ください。

実験

Robustness評価

MergePrintのRobustness（モデルマージによって消失しないこと）を評価するため、実験を実施しました。まず、フィンガープリントが埋め込まれたモデルと埋め込まれていないモデルの2モデルマージを評価し、続いてさらにモデルを追加した3モデルマージの評価を行いました。

実験1：2つのモデルのマージにおける評価

使用モデル

本実験ではLLaMA-2-7B[8]をベースモデルとし、そこから派生した2つのモデル、WizardMath-7B-V1.0[9]とLLaMA-2-7B-CHAT[8]を使用しました。WizardMath-7B-V1.0は数学タスクに特化したモデルであり、LLaMA-2-7B-CHATは安全性タスクに特化したモデルです。両モデルは同一のベースモデルから派生しているため、レイヤー構造は一致しています。この実験では、WizardMath-7B-V1.0に対して”transformers”を出力するフィンガープリントを埋め込みました。

評価に使用したモデルマージ手法

評価には3つの異なるマージ手法を採用しました。最も基本的な手法であるtask arithmetic[5]は、task-vector（エキスパートモデルとベースモデルのパラメータの差）の加重平均を計算します。TIES-merging[10]は、パラメータの符号の不一致を回避することでモデル性能の維持に優れています。DARE[11]は、task-vectorに確率pでスパース化処理を適用し、パラメータの衝突を回避する手法です。実装においては、様々なモデルマージを統合的に扱えるmerge-kitライブラリ[12]を活用しました。

ベースライン手法

モデルマージを想定したフィンガープリンティング手法は従来存在しなかったため、比較対象として、ファインチューニングベースのフィンガープリンティング手法であるInstructional Fingerprinting (IF)[6]を採用しました。IFの論文に従い、フィンガープリント出力として"ハリネズミ"を使用しています。

実験結果：2つのモデルをマージ

実験結果を表1に示します。 $\alpha$ はWizardMath-7B-V1.0をマージする割合を表しています。Math, Safetyはそれぞれ数学タスクであるGSM8Kと安全性タスクであるStrongReject-smallにおけるマージモデルの性能を表しており、どれくらい性能が保持されているかの指標になります。VSRはモデルに対して30回出力させたときにフィンガープリントが出現した割合であり、フィンガープリントがどれくらい保持されているかの指標になります。なお、出力を得る際のLLMの設定として、temperature = 0.7, top-p = 0.95, top-k = 50 に設定しています。

表1の結果から、MergePrintはオーナーモデルが1割程度のマージ比率であっても、フィンガープリントを維持できることが判明しました。一方、ベースラインのIFは50%以上のマージ比率がないとフィンガープリントが維持されませんでした。また、TIES-mergingは優れたマージ性能を示し、Math/Safety指標が高くモデルの性能がよく継承されることから、IFのフィンガープリントも維持されやすい傾向が確認されました。

実験2: 3つのモデルのマージにおける評価

先の2モデルにVicuna-7B[13]を追加し、WizardMath-7B-V1.0には $y_1 =$ ”transformer”を、LLaMA-2-CHATには $y_2 =$ ”pikachu”をフィンガープリントとして埋め込みました。Vicuna-7Bにはフィンガープリントを埋め込みませんでした。

実験結果を表2に示します。はそれぞれWizardMath-7B-V1.0, LLaMA-2-CHAT, Vicuna-7Bをマージする割合を表しています。はそれぞれのフィンガープリントが出現する割合です。

表2の結果から、ほぼすべてのマージ比率において両フィンガープリントが維持され、異なるフィンガープリント間での干渉は見られないことが確認されました。これは、フィンガープリントがLLM内で異なる表現空間に記憶されている可能性を示唆しています。

これらの実験結果から、MergePrintは既存手法と比較して、モデルマージに対する高いRobustnessを持つことが実証されました。

Harmlessness評価

フィンガープリントの埋め込みがモデル性能にどの程度影響を与えるかを評価するため、9つの異なるタスクについて埋め込み前後の性能を比較しました。さらに、入力の最適化がモデル性能に与える影響を検証するアブレーションスタディも実施しました。

実験では先の評価と同様のモデルを使用し、WizardMath-7B-V1.0には”transformer”を、LLaMA-2-CHATには”pikachu”をフィンガープリントとして埋め込みました。

データセット

評価には、LLMの性能評価で広く使用される9つのデータセットを採用しました：ARC-Challenge、ARC-Easy[14]、CommonsenseQA[15]、HellaSwag[16]、OpenBookQA[17]、PIQA[18]、SquadCompletion[19, 20]、TriviaQA[21]、Winogrande[22]です。実装にはlm-eval-harnessライブラリ[23]を使用し、評価時の設定はデフォルト値を採用しました。

実験結果を表3に示します。結果から、フィンガープリントの埋め込みによるモデル性能への影響は軽微であることが確認されました。これはパラメータの更新が最小限に抑えられているため、モデルの基本性能が維持されたと解釈できます。実際に学習では学習率を1e-6に設定し、更新回数は3~6stepほどしかありません。

入力最適化の効果に関する比較では、興味深い結果が得られました。入力を最適化しない場合でもモデル性能の著しい低下は見られませんでしたが、各タスクにおける性能変化が観察されました。これは、モデルに何らかの変化が生じていることを示唆しています。一方、入力最適化を行った場合、この変化をより効果的に抑制できることが示されました。

これらの実験結果から、MergePrintによるフィンガープリントの埋め込みは、モデルの実用的な性能を維持したまま実施可能であることが確認されました。

まとめ

本研究では、モデルマージによって消失しないフィンガープリンティング手法MergePrintを提案しました。この手法により、モデル所有者は無断利用に対して効果的に所有権を主張することが可能となります。手法の特徴は、入力の最適化と擬似マージモデルに対する最適化という2段階の処理にあり、実験を通じてモデルマージによってフィンガープリントが消失しないことと、モデル性能への最小限の影響が確認されました。

より詳細な手法の説明や追加の実験結果については、arXivに公開した論文をご参照ください。そこでは、本記事では触れられなかった様々な実験や理論的な考察も含まれています。

余談

6週間で論文1本というタイトなスケジュールでしたが、最後まで本当に楽しく研究に打ち込むことができました。これほどスピーディーに研究が進められたのは、メンターの高橋さんの的確な助言と、SuperPODという心強い計算サーバーのおかげだと思います。本当に恵まれた環境で研究させていただき、ありがとうございました。

今回が私にとって初めてのインターンシップだったのですが、大学での研究とは違う視点から研究に取り組める企業での経験は、とても新鮮でした。大学では気づけなかったような価値観に触れることができ、非常に刺激的な日々を過ごすことができました。特に印象に残っているのが成果報告会での出来事です。社員の方々から次々と質問をいただき、その議論の活発さに圧倒されたことを覚えています。

研究環境としても竹芝オフィスは素晴らしかったです。コーヒーが飲み放題だったり、美味しいキッチンカーが来てくれたりと、快適な環境が整っていました。それに、貸与されるPCはM3 MacBook Proと非常に高スペックです。

今後も研究インターンが開催されるかどうかはわかりませんが、もし機会があれば、研究に興味のある方には間違いなくおすすめできる環境だと思います。

謝辞

メンターとしてご助言いただきました高橋さん、綿岡さん、および日頃からご協力いただきました社員の皆様にこの場をお借りして御礼申し上げます。貴重な機会をいただき誠にありがとうございました。

参考文献

[1] C. Gu, C. Huang, X. Zheng, K.-W. Chang, and C.-J. Hsieh. Watermarking pre-trained language models with backdooring. arXiv preprint arXiv:2210.07543, 2022.

[2] P. Li, P. Cheng, F. Li, W. Du, H. Zhao, and G. Liu. Plmmark: a secure and robust blackbox watermarking framework for pre-trained language models. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 14991–14999, 2023.

[3] D. Pasquini, E. M. Kornaropoulos, and G. Ateniese. Llmmap: Fingerprinting for large language models. arXiv preprint arXiv:2407.15847, 2024.

[4] E. Yang, L. Shen, G. Guo, X. Wang, X. Cao, J. Zhang, and D. Tao. Model merging in llms, mllms, and beyond: Methods, theories, applications and opportunities. arXiv preprint arXiv:2408.07666, 2024.

[5] Gabriel Ilharco, Marco Tulio Ribeiro, Mitchell Wortsman, Ludwig Schmidt, Hannaneh Hajishirzi, and Ali Farhadi. Editing models with task arithmetic. In The Eleventh International Conference on Learning Representations (ICLR), 2022.

[6] J. Xu, F. Wang, M. Ma, P. W. Koh, C. Xiao, and M. Chen. Instructional fingerprinting of large language models. In K. Duh, H. Gomez, and S. Bethard, editors, Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pages 3277–3306, Mexico City, Mexico, June 2024. Association for Computational Linguistics.

[7] A. Zou, Z. Wang, N. Carlini, M. Nasr, J. Z. Kolter, and M. Fredrikson. Universal and transferable adversarial attacks on aligned language models. arXiv preprint arXiv:2307.15043, 2023.

[8] H. Touvron, L. Martin, K. Stone, P. Albert, A. Almahairi, Y. Babaei, N. Bashlykov, S. Batra, P. Bhargava, S. Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.

[9] H. Luo, Q. Sun, C. Xu, P. Zhao, J. Lou, C. Tao, X. Geng, Q. Lin, S. Chen, and D. Zhang. Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct. arXiv preprint arXiv:2308.09583, 2023.

[10] P. Yadav, D. Tam, L. Choshen, C. A. Raffel, and M. Bansal. Ties-merging: Resolving interference when merging models. Advances in Neural Information Processing Systems, 36, 2024.

[11] L. Yu, B. Yu, H. Yu, F. Huang, and Y. Li. Language models are super mario: Absorbing abilities from homologous models as a free lunch. In Forty-first International Conference on Machine Learning, 2024.

[12] C. Goddard, S. Siriwardhana, M. Ehghaghi, L. Meyers, V. Karpukhin, B. Benedict, M. McQuade, and J. Solawetz. Arcee’s mergekit: A toolkit for merging large language models. arXiv preprint arXiv:2403.13257, 2024.

[13] L. Zheng, W.-L. Chiang, Y. Sheng, S. Zhuang, Z. Wu, Y. Zhuang, Z. Lin, Z. Li, D. Li, E. Xing, et al. Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in Neural Information Processing Systems, 36:46595–46623, 2023.

[14] P. Clark, I. Cowhey, O. Etzioni, T. Khot, A. Sabharwal, C. Schoenick, and O. Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457, 2018.

[15] A. Talmor, J. Herzig, N. Lourie, and J. Berant. CommonsenseQA: A question answering challenge targeting commonsense knowledge. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4149–4158, Minneapolis, Minnesota, June 2019. Association for Computational Linguistics.

[16] R. Zellers, A. Holtzman, Y. Bisk, A. Farhadi, and Y. Choi. Hellaswag: Can a machine really finish your sentence? In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019.

[17] T. Mihaylov, P. Clark, T. Khot, and A. Sabharwal. Can a suit of armor conduct electricity? a new dataset for open book question answering. In EMNLP, 2018.

[18] Y. Bisk, R. Zellers, R. L. Bras, J. Gao, and Y. Choi. Piqa: Reasoning about physical commonsense in natural language. In Thirty-Fourth AAAI Conference on Artificial Intelligence, 2020.

[19] P. Rajpurkar, R. Jia, and P. Liang. Know what you don’t know: Unanswerable questions for squad, 2018.

[20] S. Arora, S. Eyuboglu, M. Zhang, A. Timalsina, S. Alberti, D. Zinsley, J. Zou, A. Rudra, and C. Ré. Simple linear attention language models balance the recall-throughput tradeoff, 2024.

[21] M. Joshi, E. Choi, D. S. Weld, and L. Zettlemoyer. Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, July 2017. Association for Computational Linguistics.

[22] K. Sakaguchi, R. L. Bras, C. Bhagavatula, and Y. Choi. Winogrande: An adversarial winograd schema challenge at scale. arXiv preprint arXiv:1907.10641, 2019.

[23] L. Gao, J. Tow, B. Abbasi, S. Biderman, S. Black, A. DiPofi, C. Foster, L. Golding, J. Hsu, A. Le Noac’h, H. Li, K. McDonell, N. Muennighoff, C. Ociepa, J. Phang, L. Reynolds, H. Schoelkopf, A. Skowron, L. Sutawika, E. Tang, A. Thite, B. Wang, K. Wang, and A. Zou. A framework for few-shot language model evaluation, 07 2024.