这位北大校友创办的AI公司，让更多人的声音被听见-北京大学校友网

首页 > 新闻动态 > 人物动态 > 正文

人物动态

这位北大校友创办的AI公司，让更多人的声音被听见

来源：北大人时间：2026-04-20

两个小时，是一段干音的长度，也是一个人工智能“声音替身”所需要的最少训练素材。对一位成熟的有声书主播来说，这两小时是一次寻常录制；对71岁、第一次走进专业录音棚的辛女士而言，这两小时意味着她人生中第一份可以持续产生收益的“数字资产”。让这两个小时在同一条技术路径上相遇的，是一家由北大校友创办、在人工智能语音领域耕耘十年的企业。

灵伴智能成立于2016年，创始人陈博是北京大学信息管理系1998级校友。2015年前后，他参与了国家社科基金的一个大项目——《格萨尔》说唱语音的自动识别。把这种带着强烈地域口音、节奏随性、情绪起伏极大的声音，做成机器能听懂、能检索的文本，在当时的语音识别领域是块硬骨头。

音技术的真正难点不在实验室里的标准语料，而在“人怎么说话”本身的复杂性——方言、停顿、气声、情绪、呼吸，这些人类听起来再自然不过的东西，是机器最难越过的一道坎。

成立之初，公司把研发重心摆在语音抗噪、识别、合成、自然语言理解四块基础技术上，团队里陆续聚拢了近十位在北大做人工智能研究的博士和博士后。头几年，公司做过不少语音交互项目。而真正让他们被行业记住的产品，是2020年前后开始做的长音频内容生产平台“呱呱有声”。

灵伴智能创始人陈博

这条路上陈博走了十年。到2024年，国家标准《有声读物》（GB/T 44144-2024）发布时，他作为起草人之一的名字出现在文件里。这份标准第一次在国家层面回答了“什么样的音频产品能被称为有声读物”——行业多年来的一些含混，从这张纸开始有了约束。

AI替身：分身，不是替代

一本百万字的书，一个成熟主播两小时能录出一小时干音，后期还要降噪、审校、分轨；一个小团队做下来，常常要一年以上。瓶颈不在文字，在嘴。2024年6月，呱呱有声3.0上线了一项叫“AI替身”的功能。主播贡献两小时以上的高品质干音，大模型在这两小时素材上训练出一个高度拟真的声音模型。之后制作方在界面上选中这个模型，输入文本，一分钟后生成音频。“我们不是替代真人，是给你训练一个分身。”灵伴智能工作人员高佳在接受《中国残疾人杂志》采访时这样描述这件事。主播录完那两小时，AI替身接管后续的重复劳动；真人主播省下来的精力，留给那些机器目前还做不到的部分——大哭、大笑、情绪爆发的戏份。

录音现场

AI替身当前平均定价约每万字6元，扣除算力等成本后主播可分得约一半；目前平台已有800余个AI替身上线，头部主播的月度分成超过一万元。放在更大的盘子里看，截至2025年12月底，呱呱有声平台累计服务14000余家专业制作公司和团队、85000余名专业制作人，输出长音频内容近千亿字。

让主播从重复性录制里脱身，让声音这项禀赋变成可以反复调用的产品——这是灵伴智能做“分身”的基本思路。

71岁的辛女士，和她的“替身”

2025年10月28日，北京市残联与灵伴智能在汇爱大厦共同启动“AI助残——残疾人声音价值传播助残行动”。北京市残联副理事长王响平在启动仪式上说，这项行动的核心，是帮助参与者将声音特色转化为可持续开发的“数字资产”，实现从“授人以鱼”到“授人以渔”的转变。

这句话落到实处，是一件此前少有人专门去做的事：有一部分残疾人的身体状况限制了他们的就业选择，但声音本身没有残疾，甚至因为听觉和语感的专注而更为敏锐。灵伴智能把为有声书主播训练AI替身的那套流程，原样开放给了这个群体。

培训从2025年11月启动，分“基石篇”和“实战篇”，每两周一次，线上直播加录播回放。灵伴智能邀请了一级演员、配音导演郭金非做发音上的一对一指导；另一位授课老师、资深有声书演员东华，则在理论和实战之间找平衡。高佳告诉《中国残疾人杂志》，和残疾人学员在线上声音交流时，“没有觉得残疾人和健全人有任何区别”。

71岁的辛女士是这期培训的学员之一，也是所在街道第一个报名的残疾人。据《中国残疾人杂志》报道，她年轻时喜欢朗诵，但没机会学；退休多年后，在社区微信群里看到活动通知，报了名。录完那两小时干音之后，她在手机里第一次听到自己的AI替身——音色一样，节奏一样，连那些轻微的吸气声都被保留了下来，但那个声音不会疲倦、不会走调。

辛女士

“尽管可能朗诵得不是很好吧。”辛女士在接受该刊采访时这样形容自己。但她说，这次参与让她觉得“自己没有被社会淘汰”。

让工具本身也能被听见

辛女士走进录音棚的那天，屋子里有隔音棉、有导演、有技术人员。对她和其他那一批学员而言，这是一次被专业团队托着完成的录制。但要让更多残疾人真正把声音变成长期的职业，光靠一次活动的托举不够——他们需要能独立使用的工具。

2025年12月3日，第34个国际残疾人日，灵伴智能对“呱呱有声录音宝”这款录音工具做了一次无障碍更新：适配主流读屏软件，支持全键盘操作与快捷键。一个盲人用户此后要录制干音，不再需要他人在旁边读出按钮标签；一个手部功能不便的用户，也可以不用鼠标完成时间轴的拖拽操作。灵伴智能在那天发布的推文里写了一句话——“录音无障，声声平等。”

一家做AI产品的公司，一边为残疾人训练AI替身，一边把自己的录音工具改成无障碍的。这两件事其实是一件事：让残疾人成为产品的正常用户，而不只是某次活动的受益者。

辛女士录完最后一段干音，摘下耳机，推开录音棚的门。

同样的两小时，对成熟主播是让AI替他们打工的成本，对辛女士是让一个71岁的声音在系统里被存档、被分析、被调用的起点。两小时之后，她的替身会和其他几位残疾人的替身一起被放上呱呱有声的平台，供制作方试听、收藏、选用。它不会累，也不会走调。它只是安静地等着，下一次被人点开。十年间，灵伴智能做的事情，说到底是同一件：让那些本来可能被漏掉的声音，进入系统，被留下来，能被反复听见。

这是一家北大校友企业在语音AI这条路上走过的十年，也是技术之于人的一种朴素分寸——不是去造一个更响亮的声音，而是让已经存在的每一个声音，都有机会被好好存放。

下一条：北大数学07级校友王虹、邓煜获2026年克雷研究奖

快速到达

友情链接

北京大学校友会微信服务号
北大人微信订阅号
北大校友微信小程序