斗鱼体育中国官网 CVPR 2026 视频模子趋势梳理:不啻生成下一帧,更要融会下一步


视频智能正从画面生成走向泄露限定、动态建模、信号融会与真是场景应用。
作家丨郑佳好意思
剪辑丨马晓宁
往日,视频生成更多是在科罚"像不像"的问题:东谈主物是否泄露,画面是否畅通,作风是否结伴。但跟着模子智力提高,视频信得过艰难的部分入手显现出来——它不是一组漂亮帧的泄露播放,而是一个由时刻、空间、泄露、相机、光照和物理信号共同组成的动态系统。
只须模子无法融会这些隐含结构,它生成的视频就可能看似传神,却在泄露逻辑、视角一致性或真是场景顺应上泄漏缺点。因此,视频智能正在参加一个更深的阶段:不仅仅生成画面,而是融会画面为什么会这么变化。
从泄露轨迹剪辑、3D 结构敛迹、可迭代文生视频,到自顺应视频 token、长期泄露表征、频闪去除、热成像分离和地球不雅测模子,征询者骨子上都在处理并吞个底层问题:若何让模子把视频从"像素序列"融会为"动态天下"。
这亦然本年 CVPR 联系标的中一个值得把稳的信号——视频模子的竞争要点,正在从视觉质地转向对时刻、空间和物理法则的建模智力。
换句话说,视频 AI 的下一步,不是单纯把视频生成得更长、更明晰、更炫,而是让模子知谈泄露从何处来、结构为什么褂讪、信号若何形成,以及复杂场景中的变化若何被展望和限定。
当这些智力逐渐补皆,视频模子才可能信得过从内容生成器具,走向大意融会、剪辑和推演实践天下的动态智能系统。
01
从改画面到改泄露
视频生成和视频剪辑正在从"画面是否颜面",走向"泄露是否可控"。谷歌和石溪大学共同建议的《MotionV2V: Editing Motion in a Video》征询的恰是若何不单修改视频作风或局部外不雅,而是径直剪辑视频里的"泄露"。
比如让东谈主物换标的、让物体晚少许出现,或在保留场景内容的同期更正镜头泄露。现存时势一朝触及物体泄露、相机轨迹或时刻步调变化,就很难保留原视频后续帧中已有的内容。
MotionV2V 的中枢念念路是把视频泄露示意成零落轨迹点,并让用户径直剪辑这些轨迹。系统先从输入视频中提真金不怕火物体或场景点的原始泄露轨迹,用户再指定目的泄露,模子凭据"原始轨迹"和"目的轨迹"之间的各别生成剪辑后的视频。论文把这种各一名为 motion edit,并用它教育视频扩散模子,在尽量保留原视频内容的同期,让目的物体或相机按新的面容泄露。

论文地址:https://arxiv.org/pdf/2511.20640v1
它的亮点在于,MotionV2V 不是从单张图片从头生成视频,而是信得过以好意思满输入视频为条目进行 video-to-video motion editing。因此它不错愚弄视频中纵脱时刻点的信息,处理首帧里还没出现的物体,也能复旧物体泄露、相机泄露、时刻限定和泄露屡次剪辑。
作家还构建了 motion counterfactuals,即内容换取但泄露不同的视频对,用来微调 motion-conditioned video diffusion 架构。从论文对比来看,MotionV2V 在内容保留、泄露限定和合座剪辑质地上优于已有时势,用户征询中也得回约 70% 的偏好率。合座来看,这篇论文把视频剪辑从"改外不雅"激动到"改泄露"。

当泄露剪辑触及相机、物体和非刚性形变时,仅靠 2D 泄露陈迹每每不够。Adobe 和马里兰大学帕克分校共同建议的《Generative Video Motion Editing with 3D Point Tracks》进一步使用 3D point tracks 作为结伴的泄露限定示意,同期更正视频里的相机泄露和物体泄露。
系统会先揣摸输入视频中的相机参数和 3D 点轨迹,用户剪辑相机泄露或物体轨迹后,再由 video-to-video 生成模子合成新视频。

论文地址:https://arxiv.org/pdf/2512.02015v1
比较 2D 轨迹,3D 轨迹提供了深度信息,不错匡助模子判断掩饰关系、前后档次和真是空间泄露。论文还瞎想了 3D track conditioner,通过 cross-attention 从输入视频中采样视觉高下文,并把这些信息对皆到目的帧空间中,让模子在更正泄露的同期保握画面连贯。
由于真是天下中很难得回成对检修数据,作家领受两阶段检修:先用合成数据学习基础泄露限定,再用真是单目视频构造非泄露片断对,缩小合成到真是的差距。合座来看,这篇论文把视频泄露剪辑激动到更 3D-aware 的阶段,也复旧泄露迁徙、非刚性变形、物体移除和复制等成果。

要是输入唯惟一张物体图像,模子如安在相机绕物体旋转时生成褂讪、真是、结构一致的视频?澳大利亚国立大学和亚马逊共同建议的《Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors》征询的即是从单张物体图像生成 orbital video。现存视频生成时势在大角度视角变化时阑珊可靠像素对应关系,容易生成结构误会或分歧理的物体时势。雷峰网

论文地址:https://arxiv.org/pdf/2604.12309
这篇论文的中枢念念路是引入 3D foundation model 中学到的时势先验,用它赞助视频扩散模子生成更褂讪的环绕视频。模子从单张输入图像中提真金不怕火两类 3D latent features:全局 latent vector 提供合座结构教育,体积特征投影得到的 latent images 提供随视角变化的几何细节。
比较深度图或法线图,这些 3D latent features 能抒发更好意思满的物体时势,也幸免显式提真金不怕火 mesh 的异常支出。作家还瞎想了 multi-scale 3D adapter,把不同标准的 3D 特征接入基础视频模子,从而提高生成视频的真是感、物体时势合感性和多视角一致性。

谷歌和新加坡国立大学共同建议的《VISTA: A Test-Time Self-Improving Video Generation Agent》则把重点放在生成历程自身:当用户给出文本想法后,系统能不成反复评估、反念念和修改,直到生成更顺应意图的视频。
它征询的是 test-time self-improvement,也即是不从头检修视频生成模子,而是在推理阶段通过反复评价和改写 prompt 来提高收尾。
VISTA 会先把用户想法拆成带偶然刻结构的场景筹画,包括时长、扮装、动作、对白、环境、相机、声息和表情等成分;生成多个候选视频后,通过 pairwise tournament 选出刻下最佳收尾;随后由视觉、音频和高下文评审智能体建议倡导,终末由 reasoning agent 概述反映并改写 prompt,参加下一轮生成。

论文地址:https://arxiv.org/pdf/2510.15831
它的亮点在于,VISTA 不是只优化某个目的,而是把视频筹画、候选筛选、多维度评价和辅导词重写串成自动闭环。论文中提到,VISTA 在自动目的下相较先进基线最高达到 60% 的 pairwise win rate,在东谈主工评测中也得回 66.4% 的偏好率。合座来看,斗鱼体育DOUYU中国官网它把文生视频从"一次性生成"激动到"生成—评价—反念念—再生成"。

02
让模子先学会「若何动」
要让视频模子更好地生成和剪辑内容,底层示意也需要更高效。上海交通大学、香港汉文大学多媒体实验室、上海东谈主工智能实验室 OpenGVLab、同济大学、清华大学共同建议的《AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space》征询的是视频 tokenization 问题,也即是若何把泄露视频帧压缩成更稳妥自总结模子处理的冲突 token。

论文地址:https://arxiv.org/pdf/2505.17011v2
AdapTok 的中枢念念路是让视频 token 分派变得自顺应。它不是给每个时刻段分派通常多的 token,而是凭据视频内容、时刻变化和合座预算,动态决定何处多用 token、何处少用 token。
它使用 1D latent token space 示意视频,并引入 temporal causality,让前边帧的编码妥协码不依赖改日帧,更稳妥流式处理和自总结生成;同期通过 block-wise masking、block causal scorer 和 IPAL 计策完成自顺应分派。
这么一来,泄露明显、场景变化大的片断会得回更多 token,静态或冗余片断则使用更少 token。在 UCF-101 和 Kinetics-600 任务中,AdapTok 在不同 token 预算下都能提高重建质地和生成施展。

AdapTok 科罚的是视频若何被高效示意,而 CompVis @ LMU、MCML 和苹果共同建议的《Learning Long-term Motion Embeddings for Efficient Kinematics Generation》进一步追问:要是仅仅融会改日若何动,是否一定要好意思满生成像素视频。论文转向学习一种更紧凑的 long-term motion embedding,用来示意场景中的长期泄露法则。
它从大限制 tracker 模子得到的轨迹数据中学习压缩泄露空间,把零落轨迹和肇端帧编码成 latent motion grid,并可在职意空间查询点上重建密集泄露;随后在这个泄露 latent 空间里检修 conditional flow-matching 模子,凭据文本任务描摹或 spatial pokes 生成长期泄露。这种示意可达到 64 倍时刻压缩,也即是说模子无谓逐帧生成视频,就能在更抽象的泄露空间中推断改日动态。

论文地址:https://arxiv.org/pdf/2604.11737
快乐彩正版app下载官网这篇论文的亮点在于,它把"生成视频"拆成了更基础的"生成泄露"。这种 kinematics-first 面容更稳妥探索多个可能改日,也更稳妥机器东谈主筹画、轨迹展望和长期动态建模。
在洞开域互联网视频和 LIBERO 机器东谈主基准上,它的泄露生成质地、条目效力智力和效率都优于有益轨迹展望时势以及 Wan、Veo 3 等视频模子基线。合座来看,AI 不一定要先"画出改日",也不错先学会"改日应该若何动"。

03
从成立画面到融会信号起首
除了生成和剪辑,视频与图像征询也在关切若何从复杂成像退化中讲述可靠信息。南开大学海外先进征询院、鹏城实验室、南开大学筹办机学院、香港理工大学、OPPO 征询院共同建议的《It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal》征询的是短曝光连拍图像中的 flicker artifact 去除问题。
这类退化由东谈主工光源频闪和 rolling shutter 共同形成,施展为条纹状、明暗不均的醒目,不成简约看成平凡噪声或低光增强处理。
Flickerformer 的中枢念念路是愚弄醒目退化的周期性和标的性。周期性来自交流电光源亮度变化,标的性与相机逐行扫描机制关系。针对这两个特质,Flickerformer 瞎想了 PFM、AFFN 和 WDAM 三个模块,分别用于帧间相位联系交融、单帧自联系建模,以及小波域标的性高频成立。雷峰网

论文地址:https://arxiv.org/pdf/2603.22794v1
它的亮点在于,把频闪自身的物理先验镶嵌彀络结构里,而不是把 flicker removal 当成平凡图像增强任务。在 BurstDeflicker benchmark 上,Flickerformer 超越多种图像规复和 burst restoration 时势,取得 31.226 PSNR、0.920 SSIM、0.045 LPIPS。合座来看,这篇论文让模子大意更准确地去除条纹醒目,同期保留细节并减少重影。

雷同念念路也出当今热成像征询中。CMU 建议的《Dual Band Video Thermography: Separating Time-Varying Reflection and Emission Near Ambient Conditions》征询的是热成像中的辐射 / 反射分离问题。
热相机看到的长波红外信号既可能来自物体自身热辐射,也可能来自周围环境反射;在接近室温的正常场景中,这两部分信号强度接近且都会随时刻变化,因此很难判断亮暗变化到底来自物体温度变化,仍是布景反射。

论文地址:https://arxiv.org/pdf/2509.11334
论文建议 dual-band thermal videography,用两个长波红外子波段视频分离"物体自身辐射"和"布景反射"。它同期愚弄光谱陈迹和时刻陈迹:并吞材料在两个波段中的辐射率比例相对固定,而物体热传导变化频繁更平滑、布景反射变化更快。
实验中,时势能把咖啡壶升温时的热辐射与独揽出动东谈主物的反射分开,也能分辩玻璃板上的手指热印和手指反射。在羽觞和咖啡壶视频中的非校准温度揣摸罪戾分别约为 1.72% 和 5.34%。合座来看,这篇论文把热成像从"看到温度漫衍"激动到"融会热信号起首"。

04
让视觉模子参加真是天下任务
当视觉模子参加遥感和地球不雅测场景时,问题会比平凡图像更复杂:模子不仅要处理图像,还要同期融会时刻序列、多源数据和舆图标注。艾伦东谈主工智能征询所、华盛顿大学、亚利桑那州立大学、不列颠哥伦比亚大学聚会建议的《Helios: Stable Latent Image Modeling for Multimodal Earth Observation》征询的是面向地球不雅测数据的多模态基础模子。
地球不雅测数据既有图像空间结构,也有雷同视频或文本的时刻序列特征,还包含卫星影像、舆图、地形、作物、地盘掩盖等多种模态。
这篇论文建议的模子叫 OlmoEarth,目的是让地球不雅测基础模子更褂讪、更高效,也更容易落地到环保、东谈主谈主义和寰球利益联系任务中。它不单检修模子,还配套构建端到端平台,用于数据汇注、标注、检修和推理,镌汰真是组织使用前沿地球不雅测模子的门槛。

论文地址:https://arxiv.org/pdf/2511.13655
OlmoEarth 的中枢时势是 Latent MIM Lite。它用立地开动化、检修中冻结的线性投影层,把图像 patch 投到 token 空间作为展望目的,在保留 latent modeling 表征智力的同期提高检修褂讪性。这个瞎想还把自监督数据和带标注舆图数据结伴到并吞个 token 空间里,让模子不错用换取亏损学习不雅测数据和标签舆图。
针对遥感数据空间、时刻和模态高度冗余的问题,OlmoEarth 领受 modality-aware masking,让模子必须从其他时刻、空间或模态中推断缺失信息;同期只在并吞 bandset 内进行 token 对比,幸免多数"太容易"的负样本放松检修成果。
概述评估中,OlmoEarth 与 12 个其他基础模子比较,在 embedding 评估中于 24 个任务里的 15 个取得最佳施展;在 full fine-tuning 树立下,于 29 个任务里的 19 个取得最佳施展。合座来看,这篇论文为地球不雅测任务建议了一个更褂讪、更洞开、更面向真是应用的多模态基础模子体系。

此次去 CVPR 现场,一定不要错过
【坚决大牛 + 赚外快】的契机
需要你作念什么:把你最关切的 10 个大会叙述,每页 PPT 都拍下来
你能得回什么?
坚决大牛:你将不错参加 CVPR 名师博士社群;
钱多活少:提供丰厚奖金,任务量精简;
听会解放:你的行程你作念主,顺遂就把外快赚。拍下你最感兴味的 10 个叙述 PPT 即可。
要是你行将赶赴 CVPR,想边听会边赢利,还能趁便为 AI 学术社区作念孝敬、坚决更多大牛,宽待考虑咱们: [ 添加微信号 :MS_Yahei ]
【名额 5 位,先到先得】