拖拽下图像就能生成视频，中科大、微软等DragNUWA属实惊艳

机器之心报道

(相关资料图)

编辑：小舟

随着 ChatGPT、GPT-4、LLaMa 等模型的问世，人们越来越关注生成式模型的发展。相比于日渐成熟的文本生成和图像生成，视频、语音等模态的 AI 生成还面临着较大的挑战。

现有可控视频生成工作主要存在两个问题：首先，大多数现有工作基于文本、图像或轨迹来控制视频的生成，无法实现视频的细粒度控制；其次，轨迹控制研究仍处于早期阶段，大多数实验都是在 Human3.6M 等简单数据集上进行的，这种约束限制了模型有效处理开放域图像和复杂弯曲轨迹的能力。

基于此，来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型 ——DragNUWA。DragNUWA 从语义、空间和时间三个角度实现了对视频内容的细粒度控制。本文共一作殷晟明、吴晨飞，通讯作者段楠。

论文地址：https://arxiv.org/abs/2308.08089

以拖动（drag）的方式给出运动轨迹，DragNUWA 就能让图像中的物体对象按照该轨迹移动位置，并且可以直接生成连贯的视频。例如，让两个滑滑板的小男孩按要求路线滑行：

还可以「变换」静态景物图像的相机位置和角度：

方法简介

该研究认为文本、图像、轨迹这三种类型的控制是缺一不可的，因为它们各自有助于从语义、空间和时间角度控制视频内容。如下图 1 所示，仅文本和图像的组合不足以传达视频中存在的复杂运动细节，这可以用轨迹信息来补充；仅图像和轨迹组合无法充分表征视频中的未来物体，文本控制可以弥补这一点；在表达抽象概念时，仅依赖轨迹和文本可能会导致歧义，图像控制可以提供必要的区别。

DragNUWA 是一种端到端的视频生成模型，它无缝集成了三个基本控件 —— 文本、图像和轨迹，提供强大且用户友好的可控性，从语义、空间和时间角度对视频内容进行细粒度控制。

为了解决当前研究中有限的开放域轨迹控制问题，该研究重点关注三个方面的轨迹建模：

使用轨迹采样器（Trajectory Sampler，TS）在训练期间直接从开放域视频流中采样轨迹，用于实现任意轨迹的开放域控制；使用多尺度融合（Multiscale Fusion，MF）将轨迹下采样到各种尺度，并将其与 UNet 架构每个块内的文本和图像深度集成，用于控制不同粒度的轨迹；采用自适应训练（Adaptive Training，AT）策略，以密集流为初始条件来稳定视频生成，然后在稀疏轨迹上进行训练以适应模型，最终生成稳定且连贯的视频。

实验及结果

该研究用大量实验来验证 DragNUWA 的有效性，实验结果展示了其在视频合成细粒度控制方面的卓越性能。

与现有专注于文本或图像控制的研究不同，DragNUWA 主要强调建模轨迹控制。为了验证轨迹控制的有效性，该研究从相机运动和复杂轨迹两个方面测试了 DragNUWA。

如下图 4 所示，DragNUWA 虽然没有明确地对相机运动进行建模，但它从开放域轨迹的建模中学习了各种相机运动。

为了评估 DragNUWA 对复杂运动的精确建模能力，该研究使用相同的图像和文本对各种复杂的拖动（drag）轨迹进行了测试。如下图 5 所示，实验结果表明 DragNUWA 能够可靠地控制复杂运动。

此外，DragNUWA 虽然主要强调轨迹控制建模，但也融合了文本和图像控制。研究团队认为，文本、图像和轨迹分别对应视频的三个基本控制方面：语义、空间和时间。下图 6 通过展示文本（p）、轨迹（g）和图像（s）的不同组合（包括 s2v、p2v、gs2v、ps2v 和 pgs2v）说明了这些控制条件的必要性。

感兴趣的读者可以阅读论文原文，了解更多研究内容

推荐内容

拖拽下图像就能生成视频，中科大、微软等DragNUWA属实惊艳

秒传230部高清电影 SK海力士推出全球最高性能HBM3E内存

「Clip Mouse」，可能是你能用到的最小的鼠标

阿里少年云推“云上科技课程”，山区孩子用暑假开发机器人小车

ROG GAMESCOM 新品发布会预热，明晚发布主板、显示器新品

“减肥神药”卖疯，制药巨头市值超过整个国家GDP！马斯克也来带货

优必选CEO周剑：人形机器人将重新定义AI时代的工人

极限射击，打出最强火力

云南红河：小火车开动啦！（侨乡新貌）

上半年国内折叠屏出货量同比增长72% OPPO市场份额稳居第二

realme真我五周年：5G手机即将发布超1亿销量

realme真我GT5将发布采用奇迹玻璃技术

没人用还占空间微软Win11系统将允许卸载更多内置软件

41岁李娜与姜山秀恩爱！仙女下凡，浓妆艳抹大变样，被质疑整过容

商品期货收盘多数上涨，纯碱9%涨停，玻璃涨近5%

宋书玉：文化品质的提升是名酒未来发展最核心的要素

9月13号~10月15号，桃花绽放，喜事扎堆来的3大属相

未来9天，四大生肖定能锦绣前程，前途一片光明，富得流油

将来28天，四大生肖横财接踵而至，身上有钱，五福临门

这些星座常常开导了别人，而说服不了自己

熬过21日，四大生肖运势红火，福气上门来，结识贵人

亚太股市收盘涨跌互现，日经225指数涨0.37%，新西兰NZX50指数跌1.31%

北向资金全天净卖出超64亿元连续11日减仓

骑手得知孩子跳楼崩溃大哭？当事人：系大女儿表述错误，妹妹没有从窗台掉下去，只是在台阶上摔了一跤

为什么5年LPR没有跟随性下调？申万宏源宏观：维持商业银行利润是关键，存量房贷利率下调或已在路上

西班牙特内里费岛野火加剧　万余人疏散

诸葛找房：第34周重点城市新房、二手房成交止跌回升，8月累计成交仍维持降势

俄“月球-25”号探测器与月球表面相撞后失联

巴基斯坦东部交通事故致20死15伤

巴基斯坦西北部一车辆遇袭致11死2伤

推荐内容

拖拽下图像就能生成视频，中科大、微软等DragNUWA属实惊艳

秒传230部高清电影 SK海力士推出全球最高性能HBM3E内存

「Clip Mouse」，可能是你能用到的最小的鼠标

阿里少年云推“云上科技课程”，山区孩子用暑假开发机器人小车

ROG GAMESCOM 新品发布会预热，明晚发布主板、显示器新品

“减肥神药”卖疯，制药巨头市值超过整个国家GDP！马斯克也来带货

优必选CEO周剑：人形机器人将重新定义AI时代的工人

极限射击，打出最强火力

云南红河：小火车开动啦！（侨乡新貌）

上半年国内折叠屏出货量同比增长72% OPPO市场份额稳居第二

realme真我五周年：5G手机即将发布 超1亿销量

realme真我GT5将发布 采用奇迹玻璃技术

没人用还占空间 微软Win11系统将允许卸载更多内置软件

41岁李娜与姜山秀恩爱！仙女下凡，浓妆艳抹大变样，被质疑整过容

商品期货收盘多数上涨，纯碱9%涨停，玻璃涨近5%

宋书玉：文化品质的提升是名酒未来发展最核心的要素

9月13号~10月15号，桃花绽放，喜事扎堆来的3大属相

未来9天，四大生肖定能锦绣前程，前途一片光明，富得流油

将来28天，四大生肖横财接踵而至，身上有钱，五福临门

这些星座常常开导了别人，而说服不了自己

熬过21日，四大生肖运势红火，福气上门来，结识贵人

亚太股市收盘涨跌互现，日经225指数涨0.37%，新西兰NZX50指数跌1.31%

北向资金全天净卖出超64亿元 连续11日减仓

骑手得知孩子跳楼崩溃大哭？当事人：系大女儿表述错误，妹妹没有从窗台掉下去，只是在台阶上摔了一跤

为什么5年LPR没有跟随性下调？申万宏源宏观：维持商业银行利润是关键，存量房贷利率下调或已在路上

西班牙特内里费岛野火加剧 万余人疏散

诸葛找房：第34周重点城市新房、二手房成交止跌回升，8月累计成交仍维持降势

俄“月球-25”号探测器与月球表面相撞后失联

巴基斯坦东部交通事故致20死15伤

巴基斯坦西北部一车辆遇袭致11死2伤

realme真我五周年：5G手机即将发布超1亿销量

realme真我GT5将发布采用奇迹玻璃技术

没人用还占空间微软Win11系统将允许卸载更多内置软件

北向资金全天净卖出超64亿元连续11日减仓

西班牙特内里费岛野火加剧　万余人疏散