百度把数字人升级成独立部门了，拆解一下背后的AI技术

百度数字人

百度把数字人升级成独立部门了，拆解一下背后的技术

前几天百度内部做了个组织调整，把数字人创新业务部升格成了独立部门。这消息在圈子里传得不算广，毕竟不是那种发新品、发大模型的新闻头条。但说实话，我觉得这事比表面上看起来有意思得多。

你可能还记得，五月份的Create 2026百度AI开发者大会上，他们把"慧播星"这个数字人品牌升级成了"百度一镜"，号称是全球首个全场景多智能体数字人平台。说白了，就是让你能搞数字人直播、数字人视频、实时互动数字人，一套全包。到去年底，他们的数字人主播数已经突破10万了，服务了30多个行业。

10万个数字人主播，这个数字够吓人的。但从技术角度看，真正让我好奇的是——这些东西到底是怎么跑起来的？

多模态大模型才是数字人的"魂"

早几年的数字人，说难听点就是个高级点儿的PPT。写好脚本录好音，对口型对得差不多就行了。那时候的技术路线就是TTS（文字转语音）+简单的嘴型驱动，效果嘛……你懂的，稍微多看两眼就感觉不对劲。

现在的逻辑完全不一样了。百度的数字人背后走的是多模态大模型路线。具体来说，就是语音识别（ASR）接大语言模型（LLM）再接语音合成（TTS），中间穿插视觉模型做表情驱动和一镜到底的口型同步。整个链路是这样的：用户说话→ASR转文字→LLM理解语义并生成回应→TTS合成语音→人脸驱动模型同步口型和微表情。

这一步一步拆开看，每个环节都是大模型能力的体现。百度在这一块手上有文心大模型这张牌，语音方面有自研的DeepSpeaker，再加上视觉侧的一系列模型，算是一个完整的闭环。

60毫秒延迟这件事，其实挺难搞的

做数字人直播最难的不是"让它说话"，而是"让它像人一样说话"。

真人直播的时候，主播看到弹幕、理解问题、组织语言、张嘴回应，这个反应时间大概是几百毫秒到一两秒。如果数字人延迟太久，观众一眼就能看出来不对劲。百度一镜能做到端到端延迟60毫秒以内——这个数字看着不起眼，但背后的技术栈其实是把ASR、LLM推理、TTS三个模型做了深度融合和流水线并行，才堆出来的。

还有一个容易被忽略的点：表情和语气的一致性。你想想，数字人在讲一个搞笑的事情却面无表情，或者在说严肃话题的时候笑嘻嘻的，那多瘆人。所以他们在TTS环节就加入了情感标签，语音模型输出带情绪的声线，同时把情感标签传给视觉模型，让数字人的表情跟着语气走。这个"声形合一"的效果，才是数字人真正"像人"的关键。

toB和toC，数字人两条腿走路

百度这次把数字人独立出来，说明这块业务已经能自我造血了。10万个主播服务30多个行业，主要覆盖的是电商直播、品牌营销、教育培训这几个方向。

我观察到一个有意思的现象：现在很多中小商家根本请不起真人主播。一个像样点的主播月薪基本要一万起步，还得配运营、配场控。小商家一天的流水可能就几千块，哪养得起这么一个团队。但数字人直播间的成本，算下来是真人团队的十分之一都不到。而且数字人不用睡觉，能24小时轮播，这对标品类的店铺来说简直是降维打击。

特别值得一提的是，百度一镜还出了海外版。据我了解，在东南亚市场，中文和英文的数字人直播需求涨得很快。很多做跨境电商的中国商家，在当地请不到合适的中文主播，数字人就成了最好的替代方案。

未来会怎样

数字人这个赛道，坦白说前几年被吹得太过了，现在反而进入了一个务实的阶段。技术上从"能不能动"进化到了"像不像人"，商业模式上也从"讲故事"变成了"算得过来账"。

我的判断是，接下来一两年，数字人会像当年的短视频一样，从"新鲜玩意"变成"标配工具"。不是每个公司都需要一个真人主播，但每家公司都可以有一个数字人。而百度这次把数字人提到独立部门的位置，等于是在内部给这个方向加了最大的注——赌的就是这个判断。

从技术人的角度看，数字人领域目前还有些硬骨头要啃。比如非母语口型的精准度、群体互动的实时建模、长时间直播的稳定性等等。但方向已经明确了，剩下的就是工程优化的事。

反正我是觉得，以后你在直播间里看到的主播，可能有一半都不是真人。这个趋势，挡不住的。