欢迎光临bb视讯游戏官方网站!
服务热线:400-123-4567

新闻资讯

释放NVIDIA EAGLE 2.5视觉语言AI模型:8b参数可与GP

日期:2025-04-26 16:21 浏览:
4月23日新闻,技术媒体MarktechPost昨天(4月22日)发表了一篇博客文章,报道说,NVIDIA的Eagle 2.5发行是一种视觉语言(VLM)模型,专门针对长期多模式研究。该模型专注于理解大型视频和图像,尤其是在处理具有高分辨率和长时间视频顺序的图像时。尽管参数大小仅为8B,但Eagle 2.5在视频MME基准(512帧输入)上得分高达72.4%,与QWEN2.5-VL-72B和InternVL2.5-78B等较大型号相当。 Eagle 2.5的创新培训技术的成功与两种主要的培训技术是不可分割的:信息优先抽样和渐进式培训。通过图像区域保留(IAP)技术来实现优先级抽样,该技术可维持原始图像区域的超过60%,同时减少了各个方面的失真;自动采样(AD)崩溃是基于视觉和文本输入的动态平衡上下文确保文本的完整性和视觉细节的优化。渐进式培训逐渐将模型上下文窗口从32K扩展到128K令牌,从而使模型可以在不同的输入长度保持稳定的性能,并防止过度调整单个上下文范围。这些策略结合了Siglip Visual编码和MLP投影层,以确保模型在不同任务中的灵活性。自定义数据集Eagle 2.5培训数据管道包括开放资源资源和自定义数据集Eagle-Video-1110k。该数据集旨在了解长vidseo并采用双重标签程序。自上而下的方法采用了故事级段,结合了GPT-4产生的标有章节和密集描述的元数据;自下而上的方法使用GPT-4O来生成问答对的短剪辑,以获取时间和空间的详细信息。通过筛选Kosine的相似性,数据集强调了e多样性而不是冗余,可确保细粒度叙事和预防细粒度的相关性,从而可以通过高框架(≥128帧)活动来显着提高模型性能。 Eagle 2.5-8B性能在许多视频和图像理解活动中表现良好。在视频基准上,MVBench标记为74.8,MLVU为77.6,而LongvideObench Mark为66.4;在图像基准上,DOCVQA标记为94.1,ChartQA为87.5,InfoVQA为80.4。消融研究表明,IAP去除和ADS会导致性能损害,而渐进式训练和Eagle-Video-110AD的添加会导致更稳定的改进。这取决于参考家庭[来源:家庭]
首页
电话
短信
联系