
百度把数字人升级成独立部门了,拆解一下背后的技术
前几天百度内部做了个组织调整,把数字人创新业务部升格成了独立部门。这消息在圈子里传得不算广,毕竟不是那种发新品、发大模型的新闻头条。但说实话,我觉得这事比表面上看起来有意思得多。
你可能还记得,五月份的Create 2026百度AI开发者大会上,他们把"慧播星"这个数字人品牌升级成了"百度一镜",号称是全球首个全场景多智能体数字人平台。说白了,就是让你能搞数字人直播、数字人视频、实时互动数字人,一套全包。到去年底,他们的数字人主播数已经突破10万了,服务了30多个行业。
10万个数字人主播,这个数字够吓人的。但从技术角度看,真正让我好奇的是——这些东西到底是怎么跑起来的?
多模态大模型才是数字人的"魂"
早几年的数字人,说难听点就是个高级点儿的PPT。写好脚本录好音,对口型对得差不多就行了。那时候的技术路线就是TTS(文字转语音)+简单的嘴型驱动,效果嘛……你懂的,稍微多看两眼就感觉不对劲。
现在的逻辑完全不一样了。百度的数字人背后走的是多模态大模型路线。具体来说,就是语音识别(ASR)接大语言模型(LLM)再接语音合成(TTS),中间穿插视觉模型做表情驱动和一镜到底的口型同步。整个链路是这样的:用户说话→ASR转文字→LLM理解语义并生成回应→TTS合成语音→人脸驱动模型同步口型和微表情。
这一步一步拆开看,每个环节都是大模型能力的体现。百度在这一块手上有文心大模型这张牌,语音方面有自研的DeepSpeaker,再加上视觉侧的一系列模型,算是一个完整的闭环。
60毫秒延迟这件事,其实挺难搞的
做数字人直播最难的不是"让它说话",而是"让它像人一样说话"。
真人直播的时候,主播看到弹幕、理解问题、组织语言、张嘴回应,这个反应时间大概是几百毫秒到一两秒。如果数字人延迟太久,观众一眼就能看出来不对劲。百度一镜能做到端到端延迟60毫秒以内——这个数字看着不起眼,但背后的技术栈其实是把ASR、LLM推理、TTS三个模型做了深度融合和流水线并行,才堆出来的。
还有一个容易被忽略的点:表情和语气的一致性。你想想,数字人在讲一个搞笑的事情却面无表情,或者在说严肃话题的时候笑嘻嘻的,那多瘆人。所以他们在TTS环节就加入了情感标签,语音模型输出带情绪的声线,同时把情感标签传给视觉模型,让数字人的表情跟着语气走。这个"声形合一"的效果,才是数字人真正"像人"的关键。
toB和toC,数字人两条腿走路
百度这次把数字人独立出来,说明这块业务已经能自我造血了。10万个主播服务30多个行业,主要覆盖的是电商直播、品牌营销、教育培训这几个方向。
我观察到一个有意思的现象:现在很多中小商家根本请不起真人主播。一个像样点的主播月薪基本要一万起步,还得配运营、配场控。小商家一天的流水可能就几千块,哪养得起这么一个团队。但数字人直播间的成本,算下来是真人团队的十分之一都不到。而且数字人不用睡觉,能24小时轮播,这对标品类的店铺来说简直是降维打击。
特别值得一提的是,百度一镜还出了海外版。据我了解,在东南亚市场,中文和英文的数字人直播需求涨得很快。很多做跨境电商的中国商家,在当地请不到合适的中文主播,数字人就成了最好的替代方案。
未来会怎样
数字人这个赛道,坦白说前几年被吹得太过了,现在反而进入了一个务实的阶段。技术上从"能不能动"进化到了"像不像人",商业模式上也从"讲故事"变成了"算得过来账"。
我的判断是,接下来一两年,数字人会像当年的短视频一样,从"新鲜玩意"变成"标配工具"。不是每个公司都需要一个真人主播,但每家公司都可以有一个数字人。而百度这次把数字人提到独立部门的位置,等于是在内部给这个方向加了最大的注——赌的就是这个判断。
从技术人的角度看,数字人领域目前还有些硬骨头要啃。比如非母语口型的精准度、群体互动的实时建模、长时间直播的稳定性等等。但方向已经明确了,剩下的就是工程优化的事。
反正我是觉得,以后你在直播间里看到的主播,可能有一半都不是真人。这个趋势,挡不住的。
评论 (0)
暂无评论,来写第一条吧 ✍️