两个小时,是一段干音的长度,也是一个人工智能“声音替身”所需要的最少训练素材。对一位成熟的有声书主播来说,这两小时是一次寻常录制;对71岁、第一次走进专业录音棚的辛女士而言,这两小时意味着她人生中第一份可以持续产生收益的“数字资产”。让这两个小时在同一条技术路径上相遇的,是一家由北大校友创办、在人工智能语音领域耕耘十年的企业。
灵伴智能成立于2016年,创始人陈博是北京大学信息管理系1998级校友。2015年前后,他参与了国家社科基金的一个大项目——《格萨尔》说唱语音的自动识别。把这种带着强烈地域口音、节奏随性、情绪起伏极大的声音,做成机器能听懂、能检索的文本,在当时的语音识别领域是块硬骨头。
音技术的真正难点不在实验室里的标准语料,而在“人怎么说话”本身的复杂性——方言、停顿、气声、情绪、呼吸,这些人类听起来再自然不过的东西,是机器最难越过的一道坎。
成立之初,公司把研发重心摆在语音抗噪、识别、合成、自然语言理解四块基础技术上,团队里陆续聚拢了近十位在北大做人工智能研究的博士和博士后。头几年,公司做过不少语音交互项目。而真正让他们被行业记住的产品,是2020年前后开始做的长音频内容生产平台“呱呱有声”。

灵伴智能创始人陈博
这条路上陈博走了十年。到2024年,国家标准《有声读物》(GB/T 44144-2024)发布时,他作为起草人之一的名字出现在文件里。这份标准第一次在国家层面回答了“什么样的音频产品能被称为有声读物”——行业多年来的一些含混,从这张纸开始有了约束。
AI替身:分身,不是替代
一本百万字的书,一个成熟主播两小时能录出一小时干音,后期还要降噪、审校、分轨;一个小团队做下来,常常要一年以上。瓶颈不在文字,在嘴。2024年6月,呱呱有声3.0上线了一项叫“AI替身”的功能。主播贡献两小时以上的高品质干音,大模型在这两小时素材上训练出一个高度拟真的声音模型。之后制作方在界面上选中这个模型,输入文本,一分钟后生成音频。“我们不是替代真人,是给你训练一个分身。”灵伴智能工作人员高佳在接受《中国残疾人杂志》采访时这样描述这件事。主播录完那两小时,AI替身接管后续的重复劳动;真人主播省下来的精力,留给那些机器目前还做不到的部分——大哭、大笑、情绪爆发的戏份。

录音现场
AI替身当前平均定价约每万字6元,扣除算力等成本后主播可分得约一半;目前平台已有800余个AI替身上线,头部主播的月度分成超过一万元。放在更大的盘子里看,截至2025年12月底,呱呱有声平台累计服务14000余家专业制作公司和团队、85000余名专业制作人,输出长音频内容近千亿字。
让主播从重复性录制里脱身,让声音这项禀赋变成可以反复调用的产品——这是灵伴智能做“分身”的基本思路。
71岁的辛女士,和她的“替身”
2025年10月28日,北京市残联与灵伴智能在汇爱大厦共同启动“AI助残——残疾人声音价值传播助残行动”。北京市残联副理事长王响平在启动仪式上说,这项行动的核心,是帮助参与者将声音特色转化为可持续开发的“数字资产”,实现从“授人以鱼”到“授人以渔”的转变。
这句话落到实处,是一件此前少有人专门去做的事:有一部分残疾人的身体状况限制了他们的就业选择,但声音本身没有残疾,甚至因为听觉和语感的专注而更为敏锐。灵伴智能把为有声书主播训练AI替身的那套流程,原样开放给了这个群体。
培训从2025年11月启动,分“基石篇”和“实战篇”,每两周一次,线上直播加录播回放。灵伴智能邀请了一级演员、配音导演郭金非做发音上的一对一指导;另一位授课老师、资深有声书演员东华,则在理论和实战之间找平衡。高佳告诉《中国残疾人杂志》,和残疾人学员在线上声音交流时,“没有觉得残疾人和健全人有任何区别”。
71岁的辛女士是这期培训的学员之一,也是所在街道第一个报名的残疾人。据《中国残疾人杂志》报道,她年轻时喜欢朗诵,但没机会学;退休多年后,在社区微信群里看到活动通知,报了名。录完那两小时干音之后,她在手机里第一次听到自己的AI替身——音色一样,节奏一样,连那些轻微的吸气声都被保留了下来,但那个声音不会疲倦、不会走调。

辛女士
“尽管可能朗诵得不是很好吧。”辛女士在接受该刊采访时这样形容自己。但她说,这次参与让她觉得“自己没有被社会淘汰”。
让工具本身也能被听见
辛女士走进录音棚的那天,屋子里有隔音棉、有导演、有技术人员。对她和其他那一批学员而言,这是一次被专业团队托着完成的录制。但要让更多残疾人真正把声音变成长期的职业,光靠一次活动的托举不够——他们需要能独立使用的工具。
2025年12月3日,第34个国际残疾人日,灵伴智能对“呱呱有声录音宝”这款录音工具做了一次无障碍更新:适配主流读屏软件,支持全键盘操作与快捷键。一个盲人用户此后要录制干音,不再需要他人在旁边读出按钮标签;一个手部功能不便的用户,也可以不用鼠标完成时间轴的拖拽操作。灵伴智能在那天发布的推文里写了一句话——“录音无障,声声平等。”
一家做AI产品的公司,一边为残疾人训练AI替身,一边把自己的录音工具改成无障碍的。这两件事其实是一件事:让残疾人成为产品的正常用户,而不只是某次活动的受益者。
辛女士录完最后一段干音,摘下耳机,推开录音棚的门。
同样的两小时,对成熟主播是让AI替他们打工的成本,对辛女士是让一个71岁的声音在系统里被存档、被分析、被调用的起点。两小时之后,她的替身会和其他几位残疾人的替身一起被放上呱呱有声的平台,供制作方试听、收藏、选用。它不会累,也不会走调。它只是安静地等着,下一次被人点开。十年间,灵伴智能做的事情,说到底是同一件:让那些本来可能被漏掉的声音,进入系统,被留下来,能被反复听见。
这是一家北大校友企业在语音AI这条路上走过的十年,也是技术之于人的一种朴素分寸——不是去造一个更响亮的声音,而是让已经存在的每一个声音,都有机会被好好存放。