
阿里发了个视频生成模型,国产AI视频卷到哪一步了?
说实话,看到阿里发 HappyHorse 1.1 的时候,我第一反应是——等等,这玩意儿已经出到 1.1 了?
翻了一下时间线,1.0 版本上线也就几个月前的事。这么快就迭代了一版,而且这次升级的幅度,讲真比我预想的要大不少。
先说说最直观的变化:画面动起来了。不是那种"AI视频通病"——人物慢半拍、动作像是卡帧的 PPT——而是真的有运动张力了。
动态表现力提升,不再"僵"了
之前我拿 1.0 版本试过生成一段"人跑步"的视频,结果跑步的姿态吧,怎么说呢,像是在水里慢动作飘着走。
到了 1.1,官方说优化了运动建模和时序一致性。翻译成人话就是:人物跑起来是真的在跑,踢腿、摆臂、身体前倾的弧度都自然了。我自己试了几个复杂动作场景——打羽毛球、跳广场舞——确实流畅了不少,不再有那种"AI味"的迟缓感。
多图参考生视频,这个功能有点意思
我觉得 1.1 最实用的升级是那个多图参考生视频的能力。以前你要生成一个商品展示视频,得反复调 prompt,折腾半天出来的东西跟产品图对不上。
现在不一样了。你丢几张产品图进去,模型能理解哪些是该保留的核心元素——比如品牌 Logo 的位置、产品的颜色材质——然后在生成的视频里给你原样还原。这对做电商短视频的人来说,简直是降维打击。
指令理解升级了,能听懂人话了
我试了一条比较复杂的指令:"背景是傍晚的海边,一个穿蓝裙子的女孩回头微笑,海浪在她身后拍打礁石。"
1.0 版本出来的效果是:海边是有了,但蓝裙子变成了白色,回头微笑也没有,女孩直接背对镜头站了一整段。1.1 版本这次基本还原了指令内容,连"海浪拍打礁石"这个细节都做出来了。
这种叙事编排能力提升,对做短剧、广告片的人来说绝对是刚需。以前你得逐帧剪,现在写一段描述就能生成一个像样的片段了。
画质和音频也在跟上来
还有一个细节我挺在意的——人物皮肤质感。1.0 版本的皮肤,有种过度锐化的塑料感,像是美颜开到 200%。1.1 版本调整了分寸,该保留的痘印、毛孔都在,但整体观感自然了很多。
音频方面,台词不再像 AI 配音那样一顿一顿的,语速和停顿会根据场景情绪变化。不过说实话,跟画面比,音频的提升空间还是很大的。
整体来看,阿里这次算是把 AI 视频生成拉到了一个能用、好用的水平线。不是说没缺点了——复杂场景下偶尔还是有掉帧、诡异变形的问题——但相比半年前,进步肉眼可见。
而且他们搞了个"马力量"AI影像大赛,奖金挺高,评委里还有张纪中导演。看来是想借这个机会圈一批创作者,加速生态建设。
国内 AI 视频这赛道,今年估计会越来越热闹。
评论 (0)
暂无评论,来写第一条吧 ✍️