可能你也遇到过，AI 技术获全球顶级学术会议认可，小米 2 篇论文入选 ICCV 2025

发表评论

A+

所属分类：科技

摘要

IT之家 7 月 8 日消息，据小米技术消息，计算机视觉国际大会 ICCV 2025 论文录用结果公布，小米两篇论文凭借创新性研究成果成功入选：视频理解大模型核心技术 Q-Frame，推出行业首个动态帧选择与分辨率自适应框架，实现即插即用；持续学习框架 Analytic Subspace Routing (Any-SSR)，成功解决大语言模型在持续学习领域的核心难题「灾难性遗忘」问题。

IT之家 7 月 8 日消息，据小米技术消息，计算机视觉国际大会 ICCV 2025 论文录用结果公布，小米两篇论文凭借创新性研究成果成功入选：视频理解大模型核心技术 Q-Frame，推出行业首个动态帧选取与分辨率自适应框架，实现即插即用；持续学习框架 Analytic Subspace Routing (Any-SSR)，成功处理大语言模型在持续学习领域的核心难题「灾难性遗忘」难点。

综上所述，

据介绍，计算机视觉国际大会 ICCV 与国际计算机视觉与模式识别会议 CVPR、欧洲计算机视觉国际会议 ECCV 并称为计算机领域世界三大顶级学术会议，每两年举办一次。其中，ICCV 2025 年投稿量达 11239 篇，录用率为 24%。上述两篇论文代表了小米 AI 团队在基座大模型领域的最新探索成果，其中视频理解大模型核心技术 Q-Frame 由小米 AI 团队全面自研，大模型持续学习框架 Any-SSR 由小米 AI 团队联合华南理工大学攻关。

请记住，

全自研视频理解大模型核心技术 Q-Frame

据业内人士透露，

在视频理解大模型（Video-LLMs）的研究中，小米 AI 团队针对传统“均匀帧采样”处理模式存在时间碎片化信息丢失、盲目采样及算力浪费等难点痛点，推出全自研的 Q-Frame 核心技术，该成果以论文《Q-Frame: Query-aware Frame Selection and Multi-Resolution Adaptation for Video-LLMs》入选 ICCV 2025。

Q-Frame 作为视频理解大模型核心技术，是行业首个动态帧选取与分辨率自适应框架，也是首个无需训练，市面上各类视频理解大模型基座均可即插即用的算法框架。Q-Frame 拥有三大行业首次创新，能够精准理解视频材料与终端难点，通过精准捕捉跟终端难点最相关的视频关键材料，将有效信息量提升 5 倍：

跨模态查询检索（Cross-modal Query Retrieval, CQR）

更重要的是，

查询感知帧选取（Query-aware Frame Selection, QFS）
多分辨率自适应（Multi-Resolution Adaptation, MRA）

IC外汇行业评论：

在 MLVU 评测集上，Q-Frame 使 Qwen2-VL 的理解准确率从 55.5% 提升至 65.4%；在 LongVideoBench 上，让 GPT-4o 的准确率从 53.3% 提升到 58.6% 。此外，其多分辨率自适应特性可根据材料不可忽视性和查询需求动态调整帧分辨率，避免算力浪费。

简要回顾一下，

通过采用动态查询感知帧选取和多分辨率自适应，Q-Frame 还有效处理了「均匀帧采样」策略下时间碎片化的信息丢失、难点无感知的盲目采样和分辨率一刀切的算力浪费三大难题。与传统均匀选帧、统一处理模式不同，在有限计算资源下，Q- 午点新闻资讯 Frame 可使模型更高效准确理解视频。

可能你也遇到过，AI 技术获全球顶级学术会议认可，小米 2 篇论文入选 ICCV 2025

值得注意的是，

此外，Q-Frame 具有即插即用（plug-and-play）的特点，可与市场上现有的各类视频理解大模型兼容，无论是开源模型还是闭源模型，无需对模型进行额外的训练或微调。以 VILA-V1.5 和 Qwen2-VL 等开源模型为例，在集成 Q-Frame 后，这些模型在视频理解任务上的性能均得到了显著提升。同样，对于闭源的 GPT-4o 模型，Q-Frame 也展现出了良好的兼容性，进一步证明了其广泛的适用性。

站在用户角度来说，

Q-Frame 在小米「人车家全生态」战略中有着多元的应用场景，目前正在持续探索和落地：小米 YU7 发布时提到的哨兵模式中，能够分清楚普通的风吹草动和可能带来剐蹭、碰撞的危险行为；智能家居中，能够在监控画面中找到最关键的画面，帮助终端解答难点；在小爱视频问答场景中，允许直接定位到视频中能够解答难点的片段着手播放等。

尤其值得一提的是，

大模型持续学习框架 Any-SSR

在大语言模型（LLMs）持续学习（Continual Learning, CL）领域，往往会因新任务的学习而导致对旧任务知识的遗忘，即灾难性遗忘难点。小米 AI 团队联合华南理工大学针对这一难题开展研究，其成果《Analytic Subspace Routing: How Recursive Least Squares Works in Continual Learning of Large Language Model》成功入选 ICCV 2025。

必须指出的是，

Any-SSR 框架作为行业首个将递归最小二乘法（Recursive Least Squares, RLS）引入大语言模型持续学习的技术框架，通过分析路由机制，动态地把不同任务分配到独立子空间学习，避免任务间知识干扰，创新性处理了大语言模型持续学习中灾难性遗忘难点。同时，利用低秩适应（Low-Ra IC外汇官网 nk Adaptation, LoRA）与分析路由相结合的模式，实现了新旧知识的无缝整合与动态学习。

据报道，

在一系列技术创新的基础上，Any-SSR 方法实现了“近乎完美”的知识保留（即不遗忘），同时能无缝地学习新知识。在实验中，Any-SSR 在 TRACE 基准测试上的表现显著优于其他方法，包括多任务学习（MTL）等，不仅在整体性能（OP）上取得了优异成绩，还实现了零反向知识转移（BWT）。

IC外汇消息：

IT之家从小米技术获悉，过去五年，小米集团研发投入约 1020 亿元，在 2025 年的 300 亿研发投入中，大约有四分之一将被用于 AI 相关方向。未来五年（2026-2030 年），小米还将在核心技术赛道再投入 2000 亿元。