谷歌DeepMind与布朗大学合作开发的“力提示”(force prompting)技术,为视频生成领域带来突破。该技术无需3D模型或物理引擎,仅通过指定力的方向和强度,即可生成自然流畅的运动效果。支持全局力(如风)和局部力(如敲击)两种模式,力以矢量场形式输入系统。研究基于CogVideoX-5B-I2V模型,加入ControlNet模块处理数据,利用Transformer架构生成49帧视频,仅需4台Nvidia A100 GPU训练一天。训练数据完全合成,包括旗帜飘动、球体滚动等场景。模型在文本提示中加入物理术语后,能自动建立正确的力与运动关系,并展现出强大的泛化能力。用户测试显示,“力提示”技术在运动匹配度和真实感上优于基准模型,尽管在复杂场景中仍存不足,但其进步标志着AI正逐步理解物理规则,迈向更通用的人工智能。DeepMind首席执行官Demis Hassabis认为,这是AI发展的重要一步。