微软推出深度视频探索智能体，登顶多个长视频理解基准

更新时间：2025-06-30 16:54:34 发布时间：4小时前浏览：9910 评论：0

内容摘要尽管大型语言模型（LLMs）和大型视觉 - 语言模型（VLMs）在视频分析和长语境处理方面取得了显著进展，但它们在处理信息密集的数小时长视频时仍显示出局限性。论文标题：Deep Video Discovery : Agentic Searc

尽管大型语言模型（LLMs）和大型视觉 - 语言模型（VLMs）在视频分析和长语境处理方面取得了显著进展，但它们在处理信息密集的数小时长视频时仍显示出局限性。

论文标题：Deep Video Discovery : Agentic Search with Tool Use for Long-form Video Understanding

论文链接：pdf/2505.18079

本文提出了一种新颖的智能体 Deep Video Discovery (DVD)，通过将长视频分割为更短的片段并将其视作环境，利用 LLM 先进的推理能力来思考问题并自主规划，选择具有适当参数的工具来从环境中逐步获取信息，最终回答问题。在最新的推理模型 OpenAI o3 的帮助下， DVD 以这一简洁有效的 agentic 框架在非常具有挑战性的 LVBench 上以 74.2% 的准确率大幅超越了之前的工作。这一工作将以 MCP Server 的形式开源。

图 1：左：DeepVideoDiscovery 的流程示意图。右：LVBench 上的性能比较。

不同于之前的视频智能体框架依赖于手动设计的固定工作流程，DVD 强调其作为智能体的自主性，即通过自主规划，决策和行动来解决问题。

为了充分利用这一自主性，我们将原始的长视频转换为多粒度视频数据库，并提供了一套以搜索为中心的工具使得智能体在不同阶段搜集不同粒度的信息。具体来说该系统主要由三个核心组件构成：多粒度视频数据库、以搜索为中心的工具集以及作为智能体协调器的 LLM。

图 2：DeepVideoDiscovery 分为两个 stage，首先将长视频转化为多粒度的视频数据库，然后通过自主搜索和工具使用对用户的问题生成回答。

在 “多粒度视频数据库构建” 阶段，系统将超长视频转换为一个结构化数据库，通过统一将视频分割成短片段（例如 5 秒），并提取全局、片段和帧级别的多粒度信息，包括主题中心化摘要、片段字幕及其嵌入向量，以及原始解码帧...。

随后在 “智能体搜索和回答” 阶段，DVD 智能体配备了三个核心工具：

(1) 全局浏览（Global Browse），用于获取高层上下文信息和视频内容的全局摘要（包括视频物体和事件摘要）。

(2) 片段搜索（Clip Search）工具，实现通过片段描述 Embedding 对视频内容进行高效语义检索，并返回排名靠前的相关视频片段及其字幕和时间范围。

(3) 帧检查（frame Inspect），用于从指定时间范围内的像素级信息中提取细粒度细节，并提供开放格式的视觉问答（VQA）响应。

LLM 作为核心认知驱动器，在迭代的 “观察 - 推理 - 行动” 循环中，根据累积的知识和推理证据采取行动，从而赋予智能体自主、证据引导和灵活的行动机制，有效地将原始查询分解为逐步细化的子查询来解答问题。

表 1：本文提出的 Deep Video Discovery 在 LVBench 上以较大的幅度领先已有的工作。

该系统在多个长视频基准测试上进行了全面评估，展现了其卓越的效率和强大的性能。在极具挑战性的 LVBench 数据集上，DVD 智能体取得了 74.2% 的最新准确率，大幅超越了所有现有工作，包括先前的最先进模型 MR. Video（13.4% 的提升）和 VCA（32.9% 的提升）。在辅助转录的帮助下，准确率进一步提高到 76.0%。在 LongVideoBench、Video MME Long 子集和 EgoSchema 等其他长视频基准测试中，DVD 也持续超越了先前的最先进性能。

图 3：不同基础模型在智能体中的行为分析。图中可以明显看出不同基础模型表现出显著的行为模式差异，不具有推理能力 GPT-4o 表现出非常单一的行为模型。

消融研究证实了工具设计的有效性，并强调了推理模型在整个智能体系统中的关键作用：更换推理模型（如使用 OpenAI o4-mini 或 GPT-4o）会导致性能下降，这表明 LLM 推理能力的缺失会导致智能体行为崩溃。对智能体推理行为的分析也揭示了不同模型在工具调用模式、推理深度和准确性之间的关联，例如 GPT-4o 表现出过度自信和行为崩溃，倾向于过早结束推理。这些行为模式的分析进一步为未来的智能体设计以及基础语言模型的发展提供了实践参考。

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: 微软推出深度视频探索智能体，登顶多个长视频理解基准

本文链接: http://yulu.shshilin.com.shshilin.com/news/show-689430.html (转载时请保留)

0 条

卡多利亚智能指纹锁400客服人工维修服务电话号码-总部售后网点电话查询

魅族手机 jindinglaye ⋅ 18阅读量 ⋅ 0评论 ⋅ 17分钟前

2025-06-30
龙觇保险柜全国统一售后服务维修电话/24小时售后统一热线

魅族手机 tzkczyk ⋅ 15阅读量 ⋅ 0评论 ⋅ 30分钟前

2025-06-30
吾爱吾家智能锁400客服人工维修服务电话号码-全国24小时统一维修网点热线

科技 tzkczyk ⋅ 16阅读量 ⋅ 0评论 ⋅ 1小时前

2025-06-30
小米「AI 百宝箱」内测阶段性结束，应用将于 7 月 5 日起暂停服务

科技 shuanghongms ⋅ 9阅读量 ⋅ 0评论 ⋅ 1小时前

2025-06-30
指数上涨未结束！军工利好密集轰炸，持续性行情能否开启？

科技 youfuhb ⋅ 6阅读量 ⋅ 0评论 ⋅ 1小时前

2025-06-30
《哪吒2》今日下映！从寒假放到暑假：最终票房154.4亿全球第五

科技 ryanxul ⋅ 17阅读量 ⋅ 0评论 ⋅ 1小时前

2025-06-30
海信推出“34G6K Ultra”34 英寸带鱼屏显示器：1440P 240Hz + 双扬声器，1699 元

科技 hzjiasheng ⋅ 7阅读量 ⋅ 0评论 ⋅ 1小时前

2025-06-30
科学家利用微波辅助法合成氮掺杂碳量子点，可用于木材保护和功能化改性

科技 mal20121212 ⋅ 6阅读量 ⋅ 0评论 ⋅ 1小时前

2025-06-30
控制回路仿真入门：LTspice波特图分析详解

科技 yijin03233120 ⋅ 5阅读量 ⋅ 0评论 ⋅ 1小时前

2025-06-30
卫健委科教司发布2个竞争项目申报指南

科技 fhzcwj ⋅ 10阅读量 ⋅ 0评论 ⋅ 1小时前

2025-06-30

李怡乐

去ta空间

24小时热闻

今日推荐

浙ICP备19001410号-1

免责声明

本网站（以下简称“本站”）提供的内容来源于互联网收集或转载，仅供用户参考，不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权，尊重所有合法权益，但由于互联网内容的开放性，本站无法核实所有资料，请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益，请通过电子邮件与我们联系：675867094@qq.com。请提供相关证明材料，以便核实处理。收到投诉后，我们将尽快审查并在必要时采取适当措施（包括但不限于删除侵权内容）。本站内容均为互联网整理汇编，观点仅供参考，本站不承担任何责任。请谨慎决策，如发现涉嫌侵权或违法内容，请及时联系我们，核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜，欢迎通过以下方式与我们联系：

电子邮件：675867094@qq.com
联系电话：400-962-3929