阿里发了个视频生成模型，国产AI视频卷到哪一步了？

说实话，看到阿里发 HappyHorse 1.1 的时候，我第一反应是——等等，这玩意儿已经出到 1.1 了？

翻了一下时间线，1.0 版本上线也就几个月前的事。这么快就迭代了一版，而且这次升级的幅度，讲真比我预想的要大不少。

先说说最直观的变化：画面动起来了。不是那种"AI视频通病"——人物慢半拍、动作像是卡帧的 PPT——而是真的有运动张力了。

动态表现力提升，不再"僵"了

之前我拿 1.0 版本试过生成一段"人跑步"的视频，结果跑步的姿态吧，怎么说呢，像是在水里慢动作飘着走。

到了 1.1，官方说优化了运动建模和时序一致性。翻译成人话就是：人物跑起来是真的在跑，踢腿、摆臂、身体前倾的弧度都自然了。我自己试了几个复杂动作场景——打羽毛球、跳广场舞——确实流畅了不少，不再有那种"AI味"的迟缓感。

我觉得 1.1 最实用的升级是那个多图参考生视频的能力。以前你要生成一个商品展示视频，得反复调 prompt，折腾半天出来的东西跟产品图对不上。

现在不一样了。你丢几张产品图进去，模型能理解哪些是该保留的核心元素——比如品牌 Logo 的位置、产品的颜色材质——然后在生成的视频里给你原样还原。这对做电商短视频的人来说，简直是降维打击。

我试了一条比较复杂的指令："背景是傍晚的海边，一个穿蓝裙子的女孩回头微笑，海浪在她身后拍打礁石。"

1.0 版本出来的效果是：海边是有了，但蓝裙子变成了白色，回头微笑也没有，女孩直接背对镜头站了一整段。1.1 版本这次基本还原了指令内容，连"海浪拍打礁石"这个细节都做出来了。

这种叙事编排能力提升，对做短剧、广告片的人来说绝对是刚需。以前你得逐帧剪，现在写一段描述就能生成一个像样的片段了。

还有一个细节我挺在意的——人物皮肤质感。1.0 版本的皮肤，有种过度锐化的塑料感，像是美颜开到 200%。1.1 版本调整了分寸，该保留的痘印、毛孔都在，但整体观感自然了很多。

音频方面，台词不再像 AI 配音那样一顿一顿的，语速和停顿会根据场景情绪变化。不过说实话，跟画面比，音频的提升空间还是很大的。

整体来看，阿里这次算是把 AI 视频生成拉到了一个能用、好用的水平线。不是说没缺点了——复杂场景下偶尔还是有掉帧、诡异变形的问题——但相比半年前，进步肉眼可见。

而且他们搞了个"马力量"AI影像大赛，奖金挺高，评委里还有张纪中导演。看来是想借这个机会圈一批创作者，加速生态建设。

国内 AI 视频这赛道，今年估计会越来越热闹。