多肢選択形式のVLMベンチマーク

はじめに

慶應義塾大学理工学研究科修士1年の今井悠人と申します。この度、SB Intuitions株式会社 R&D本部 Foundation dev部 VLMコア構築チームにインターンシップとして参加させていただきました。

今回のインターンシップでは、既存のVLM (Vision-Language Model) ベンチマークを社内の計算基盤で動作するようにホストし、内製VLMモデルの評価、各VLMベンチマークの実装ごとの特徴を詳細に調査、比較するなどの開発を担当しました。その中で、既存のVLMベンチマークの実装には気になる点がいくつも存在することがわかりました。本記事では、その中でも多肢選択形式のVLMベンチマークについて調査・実験した内容について紹介したいと思います。

多肢選択形式VLMベンチマークにおける評価

与えられた問題に対して一つの正解を選択肢の中から選ぶ多肢選択形式のVLMベンチマークとしては、MME [Fu+, 24]、MMMU [Yue+, CVPR24] 、SEED-Bench [Li+, CVPR24] などが挙げられます。

図1. MMMU [Yue+, CVPR24] のサンプル例

このような多肢選択形式のベンチマークによってVLMを評価する場合、選択肢以外の文字列が生成された時の実装は以下のように異なっています。

表1. 多肢選択形式ベンチマークの実装差異
ベンチマーク名実装の特徴
MMMU [Yue+, CVPR24]パターンマッチ、マッチしない場合は選択肢からランダムに選択。
VisualWebBench [Liu+, 24]パターンマッチ、複数マッチした場合は最後に出現した選択肢を選択。
BLINK [Fu+, ECCV24]例外用の選択肢を含めて、gpt-3.5 turboに選択させる。
SEED-Bench [Li+, CVPR24]記号を除いた選択肢の回答ごとに尤度を算出し、尤度が最大の選択肢を選択。

このように、回答に対する評価方法は、各ベンチマークの作成者の実装に依存しているといえます。

私たちは、これらの実装に素直に従ってVLMを評価して良いのでしょうか?開発の中で、いくつか疑問に思う点が出てきました。

例えば、ランダム選択によって選択肢を選ぶような場合は、マークシート方式の試験において当てずっぽうに回答しているようなものです。しかし、普段人間が試験を解く際には、別の視点でも比較してランダムよりは良い正解を導き出そうとするのではないでしょうか。

本記事では、まず実際にランダム選択が多肢選択形式のVLMベンチマークの正解率にどの程度影響を与えているのか(実験①)、そしてランダム選択の場合に別のアプローチを採用することで、ランダム選択の影響を軽減できるのか(実験②)について実験を行い、得られた知見を紹介したいと思います。実験は全て、MMMUを改善した後続研究のMMMU-Pro [Yue+, 24]を題材としました。

関連研究

Fool your (V)LLMs [Zong+, ICML24]

多肢選択形式でLLMやVLMを評価する際に、選択肢の並び替えによる影響を検証した論文です。

循環的に選択肢を操作するCircularEval [Liu+, ECCV24] よりも性能が大きく低下しており、選択肢記号に関してVLMがバイアスを持っていることが示唆されます。

図2. Fool your (V)LLMs [Zong+, ICML24]

MMMU-Pro [Yue+, 24]

MMMUのアップデート版ベンチマークです。MMMUとの主要な違いとして以下が挙げられます。

  • テキストのみで答えられるQAをフィルタ

  • 選択肢が最大で4択 → 10択に増加

  • 画像内に直接Qを埋め込むvision subsetが新たに追加(本記事ではvision subsetを使用せず、Qがテキストとして与えられるstandard subsetのみを用いて実験しました)

図3. MMMU-Pro [Yue+, 24]

実験設定

実験①

MMMU-Pro (standard)において、実際にどの程度ランダムな選択が行われているかについて調査を行いました。

実験②

ランダム選択によって選択肢を選ぶ場合はchance rateでしか正解できません。 そこで、SEED-Bench [Li+, CVPR24] のように尤度に基づく選択を行う方式を組み合わせることで、上述の問題を軽減できないか実験を行いました。

比較する実験設定:

  • (ベースライン)回答にマッチする選択肢がexact matchで取得できなかった場合にランダム選択をする場合((ア) 完全一致(マッチしない場合はランダム選択)
  • プロンプト入力後、各選択肢を生成する際の負の対数尤度(NLL)を算出し、最小のものをモデルの回答とする((イ) 尤度(選択肢記号+文)
  • プロンプト入力後、各選択肢に割り当てられている選択肢記号を生成する際のNLLが最小のものをモデルの回答とする((ウ) 尤度(選択肢記号)
  • ランダム選択が発生する場合のみ、1. のアルゴリズムで回答を選択する((エ) 完全一致(マッチしない場合のみ(イ))
  • ランダム選択が発生する場合のみ、2.のアルゴリズムで回答を選択する((オ) 完全一致(マッチしない場合のみ(ウ))

結果

実験①

まず、MMMU-Pro(standard)1730サンプルに対するランダム選択の回数を以下の表に示します。

model llava-v1.6-vicuna-7b llava-v1.6-vicuna-13b llava-v1.6-34b MiniCPM-Llama3-V-2_5-8B llava-onevision-qwen2-7b-ov-hf llava-onevision-qwen2-72b-ov-hf InternVL2-40B InternVL2-8B InternVL2-Llama3-76B Yi-VL-34B
ランダム選択 1440 136 20 114 0 0 22 22 22 1

なお、表中の数値はランダム選択が発生した回数を表しています。 興味深い結果として、LLaVA-NeXT(LLaVA 1.6)ではランダム選択の回数がパラメータ数の増加に伴い減少するのに対し、InternVL2ではランダム選択の回数に変化はありませんでした。

実験②

次に、ランダム選択に尤度に基づく選択を組み合わせる場合の結果について比較した結果を以下の表に示します。

model llava-v1.6-vicuna-7b llava-v1.6-34b MiniCPM-Llama3-V-2_5-8B InternVL2-40B InternVL2-8B
(ア) 完全一致(マッチしない場合はランダム選択) 13.12% 30.35% 26.59% 36.65% 31.73%
(イ) 尤度(選択肢記号+文) 15.03% 13.82% 18.38% 14.22% 14.68%
(ウ) 尤度(記号) 12.89% 16.76% 20.00% 20.40% 12.77%
(エ) 完全一致(マッチしない場合のみ(イ)) 20.92% 30.29% 26.94% 36.88% 32.54%
(オ) 完全一致(マッチしない場合のみ(ウ)) 20.64% 30.23% 26.71% 36.59% 32.54%

なお、表中の数値はすべてaccuracy[%]を表しています。

この表から、次のことが読み取れます。

まず、(エ)および(オ)では、多くのモデルで(ア)よりも正答率が高いです。特に、ランダム選択が最も多く発生したllava-v1.6-vicuna-7bにおいては、完全一致と尤度を組み合わせることで7.8ポイントの性能向上が確認されました。 また、(イ)および(ウ)から、尤度に基づく選択方法だけでは、モデル間で結果が大きく異なることが読み取れます。例えば、llava-v1.6-vicuna-7bでは(イ)の方が高い一方で、llava-v1.6-34bやInternVL2-40Bでは(ウ)の方が高いです。

考察

実験①および実験②の実験結果から、以下のように考えられるのではないでしょうか。

  1. 大規模モデルの場合、データセットの90%以上でランダム選択は実際には発生しておらず、instruction followingの性能が向上していることが示唆される。
  2. 一方で、実験②(エ)および(オ)において7B程度のモデルでは性能が向上していることから、比較的小規模なモデル(例: 軽量なモデル、量子化されたモデル)を評価する際には、このような回答選択手法に関する議論の余地は残されている。

今回の実験では選択肢記号がアルファベット(例:A., B., )のもののみを扱いましたが、数字やひらがなの場合にモデル間でどのような差が出るかを調査するのも興味深いと思います。

余談

この実験を開始したのはインターン終了日3日前だったのですが、計算基盤(SuperPOD)のメンテナンスと重なってしまい丸一日実行できず、非常に苦労しました。最後の2日間で100枚近くのA100を一気に使う貴重な経験をさせていただきました。

本インターンシップの中では、LLM as a Judgeによる評価や自動評価、vision subsetでの実験にも取り組みましたが、ここでは詳細を割愛させていただきます。

結論

本記事では、多肢選択形式のVLMベンチマークにおけるランダム選択が及ぼす影響について調査し、尤度に基づく選択と組み合わせる手法について検討を行いました。 実験の結果、大規模モデルでの影響は少ないものの、特に軽量モデルにおいては上述のような選択手法の設計も有効であることが示唆されました。

謝辞

最後になりましたが、メンターとして細部までご助言いただきました品川さん、VLMコア構築チームの皆様、および日頃からご協力いただきました社員の皆様にこの場をお借りして御礼申し上げます。

1ヶ月半という非常に短い期間ではありましたが、貴重な機会を頂き誠にありがとうございました。

参考文献

[Fu+, 24]: Fu, Chaoyou, et al. “MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models.“ arXiv preprint arXiv:2306.13394 (2023).

[Yue+, CVPR24]: Yue, Xiang, et al. "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI." CVPR. 2024.

[Li+, CVPR24]: Li, Bohao, et al. "SEED-Bench: Benchmarking Multimodal Large Language Models." CVPR. 2024.

[Liu+, 24]: Liu, Junpeng, et al. "VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?." arXiv preprint arXiv:2404.05955 (2024).

[Fu+, ECCV24]: Fu, Xingyu, et al. "BLINK: Multimodal Large Language Models Can See but Not Perceive." ECCV. 2024.

[Yue+, 24]: Yue, Xiang, et al. "MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark." arXiv preprint arXiv:2409.02813 (2024).

[Liu+, ECCV24]: Liu, Yuan, et al. "MMBench: Is Your Multi-modal Model an All-around Player?." ECCV. 2024.

[Zong+, ICML24]: Zong, Yongshuo, et al. "Fool Your (Vision and) Language Model with Embarrassingly Simple Permutations." ICML. 2024.