【行业新闻】15秒炸场!快手的“可灵3.0”杀到,视频生成要变天?|可灵3.0全面解读

一段15秒、带智能分镜和精准口型同步的短视频,现在只需要输入几个文字描述就能生成——视频创作的门槛正在被AI技术彻底踏平。

画面质感更接近电影,镜头切换居然有模有样,甚至连人物口型都对得上背景音乐里的外语歌词。这或许不全是创作者的功劳,背后可能有AI新模型的加持。

图片

1月31日,快手正式推出新一代视频生成模型可灵 3.0 系列,包含图片3.0、视频3.0和视频3.0 Omni三个版本,目前已经启动超前内测。


01 升级核心

这次发布,简单说就是“全面升维”。快手没再满足于生成几秒的动图或表情包,而是直接瞄准了更专业的影视级内容预生产需求。

图片3.0模型输出分辨率直接拉到了2K和4K级别。这意味着它生成的单张图片,足以充当电影场景设定图或故事板,实用性大大增强。

千呼万唤的可灵网页版来了!基础模型重磅升级,新功能“炸场”WAIC - 智源社区

更关键的是,它新增了“组图生成”能力。你给出一张或几张图,它能帮你批量生成逻辑连贯的系列画面。

比如给一张主角站在废墟的图,它能自动推导并生成主角探索、发现关键物品、遭遇危机等一系列后续画面,相当于提供了视觉化的“剧情梗概”。

为了降低“AI感”,模型着重优化了纹理、光影的一致性。同时强化了对构图、视角的控制,让生成的画面更能贴合导演或分镜师的具体意图。

02 视频突破

如果说图片升级是“修内功”,那视频3.0的更新就是“秀肌肉”。最直观的突破是时长:单次生成最高可达15秒,并支持3-15秒灵活设置。

15秒,已经是一个完整短视频的黄金长度。

但这不只是时间变长。新模型搭载了一套智能分镜系统。你输入一段文本指令,比如“一个侦探缓缓走入昏暗酒吧,环顾四周后与酒保交换眼神”,AI会尝试理解并自动调度景别(如从全景推到中景)与机位,让生成的视频有基础的镜头语言。

 

音画同步能力是另一大亮点。它支持中、英、日、韩、西五种语言及方言的精准口型匹配。

想象一下,输入一句英文台词,视频里的人物口型能基本对上,这为制作多语种短视频或简易动画旁白打开了新大门。更厉害的是,在多人场景中,它能实现角色定向发声,不同的人说不同的话,避免声音“张冠李戴”。

为了保持视频中核心元素稳定,新模型增强了主体一致性控制。你可以通过上传多张图片或一段短视频来“锚定”某个角色或物体,确保它在生成的15秒内不“变形”、不“突变”。

对于需要出现招牌、字幕、文本信息的场景,模型也提升了文字生成的清晰度和可辨识度。

03 角色特征库

作为顶配版的视频 3.0 Omni,则祭出了一个对创作者极具吸引力的功能:创建视频主体特征库。

你可以上传一段3-8秒的真人或动画角色视频,AI能从中提取该角色的形象特征与音色,并存入一个专属库中。

之后,你可以在新的视频生成指令中调用这个特征,让这个角色以一致的样貌和声音“出演”全新的剧情。

这相当于为每位创作者提供了一个专属的、可复用的数字演员。无论是想打造个人IP的短视频博主,还是需要特定角色串场的故事号,这个功能都能极大提升内容制作的效率和系列感。

04 技术内核

这次升级并非简单的参数堆砌。根据技术文档,其背后有几项关键技术创新。

在图片生成方面,采用了视觉思维链技术。这项技术让AI在动手生成前,先对文本描述的复杂场景进行一步步的“思维”解构和推理,想清楚画面里该有什么、东西怎么摆、光影关系如何,再下笔。这提升了生成画面的逻辑合理性与可控性。

同时,通过 Deep-Stack 视觉信息流机制,增强了模型对细节的感知与刻画能力,让生成的纹理、材质更逼真。

在训练过程中,快手引入了强化学习框架,并用“真实感”与“电影质感”两套评估标准去反复优化模型输出。这可不是简单的清晰度提升,而是美学风格的定向塑造。

视频模型则构建了统一的多模态训练框架,能同时理解文本、图像、视频片段等多种输入信息。其多模态指令解析架构也得到优化,让AI能更准确地理解用户混杂着图片、文字和参考视频的复杂创作意图。

音频方面,通过调整采样区间和特征解耦重组方案,实现了更精准的口型匹配和音色提取。


05 行业影响

快手此次发布,将国内AI视频生成的竞争拉入了一个新维度:从“能动起来”到“能有模有样”,再到“能初步实用”。

15秒的连贯性、智能分镜、精准口型、角色一致性,这些功能点直指短视频生产中最核心的痛点。过去,一个普通的剧情类短视频团队,可能需要编剧、拍摄、剪辑、后期配音等多环节协作。

现在,借助这类工具,单人或极小的团队在创意构思阶段就能快速产出高质量的视频预演样片,极大降低了试错成本和创作门槛。

对于更广泛的普通用户来说,这意味着每个人都有了用动态影像流畅表达创意的可能。你可以是导演,用文字描述脑海中的故事;也可以是“数字选角导演”,让你喜爱的角色演绎新剧本。

技术的“可用性”正在快速转化为“实用性”。“电影感”开始有了量化的技术基础,不再是完全依赖经验和天赋的玄学。

当然,目前这仍是内测阶段的技术展示。它的实际稳定性、在千奇百怪的用户需求下的表现、以及最终如何转化为普惠的产品功能,还有待观察。

但无论如何,一股新的浪潮已经清晰可见:AI正在从“内容生成的辅助者”,快步迈向“视觉表达的基础设施提供者”。

当创作工具发生质变,内容的形态、生产的流程乃至行业的格局,都必将迎来新一轮的重塑。我们不禁要问:当人人都能便捷地制作出“电影感”短片时,什么才是真正稀缺的?是更极致的创意,更深刻的情感,还是人与技术共舞的全新叙事语言?

你对这样的未来,是感到兴奋,还是有所担忧?在评论区一起聊聊吧。

注:文章来源于微信公众号《世界人工智能论坛》。

 

首页_07180934_815_10151909_993    行业新闻    【行业新闻】15秒炸场!快手的“可灵3.0”杀到,视频生成要变天?|可灵3.0全面解读
创建时间:2026-02-02
浏览量:0

请完善以下信息,获取完整案例资料!

联系电话 *

姓名

公司名称

意向方案选择
咨询问题 *