
NVIDIA は最近、新しいビジュアル言語モデル Eagle 2.5 をリリースしました。わずか 80 億のパラメータを持つこの AI は、長時間ビデオの理解の分野で画期的な進歩を達成しました。このモデルは、Video-MME ベンチマーク テスト (入力 512 フレーム) で 72.4% の精度を達成し、そのパフォーマンスは Qwen2.5-VL-72B などの大規模なパラメータを持つ競合製品のパフォーマンスに匹敵します。
Eagle 2.5 の核心的な進歩は、2 つの革新的なテクノロジーから生まれています。情報優先サンプリングでは、画像領域保持テクノロジーによって元の画像の有効な情報保持率が 60% 以上に向上し、自動ダウンサンプリング システムはコンテキストに応じて画像とテキスト入力の比率を動的に調整できます。漸進的なポストトレーニング戦略により、モデルはコンテキスト ウィンドウを 32K から 128K に拡張して徐々に適応できるようになり、特定のデータ長への過剰適合を回避できます。
長いビデオを理解する能力をサポートするために、NVIDIA は専用の Eagle-Video-110K データセットを構築しました。このデータセットは、デュアルアノテーションメカニズムを使用しています。GPT-4 によって生成された章レベルのストーリーの説明と、GPT-4o によってアノテーションが付けられたフラグメントレベルの質問と回答のペアの両方が含まれており、コサイン類似度スクリーニングを通じてデータの多様性が確保されています。長いビデオタスクでは、128 フレーム以上のコンテンツに対するモデルの理解精度が 23% 向上しました。
パフォーマンス テストでは、Eagle 2.5 が MVBench ビデオ理解テストで 74.8 ポイントを獲得し、前バージョンより 18% の向上が見られました。 DocVQA文書画像解析テストでは、94.1%の精度率で業界新記録を樹立しました。アブレーション実験により、漸進的トレーニングを削除すると長時間のビデオタスクのパフォーマンスが 12% 低下し、情報優先サンプリングをキャンセルすると画像詳細認識率が 9% 低下することが確認されました。
現在、このモデルはSigLIPビジュアルエンコーダーを統合しており、4K解像度の画像処理をサポートしています。実際の車両故障検出テストでは、3分間のドライブレコーダー映像からターボチャージャーの異常振動の兆候を検知することに成功し、応答速度は従来のソリューションの3倍に速かった。
NVIDIA は、Eagle 2.5 テクノロジが主に医療用画像分析と工業品質検査の分野で利用されることを明らかにしました。軽量なため、エッジデバイスへの導入が可能です。 1 枚の RTX 4090 グラフィック カードで、毎秒 45 フレームのリアルタイム ビデオ分析を実現できます。開発キットは6月にパートナーがテスト用に利用できるようになる予定です。