“AI合成主播”是2018年11月7日第五届世界互联网大会上,搜狗与新华社联合发布的全球首个全仿真智能AI主持人。通过语音合成、唇形合成、表情合成以及深度学习等技术,克隆出具备和真人主播一样播报能力的“AI合成主播”。

2020年5月25日,全球首位3D版AI合成主播在两会正式亮相,展示传播方式新格局。[10]

中文名

AI合成主播

研发单位

新华社、搜狗

发布时间

2018年11月7日

类型

AI

性质

AI主持人

主播介绍

“AI合成主播”是在搜狗“分身”技术的支持下,[1]通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,[1]并结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的AI分身模型。[2]该项技术能够将所输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。

“AI合成主播”不仅有中文“AI合成主播”,同时还有以“联接中外、沟通世界”为使命的英文“AI合成主播”。[3]

技术原理

建立输入文本与输出音频信息的关联,在图像生成引擎中,使用业界的搜狗人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,最终生成输出分身视频。[4]

研发作用

“AI合成主播”使用新华社中、英文主播的真人形象,配合搜狗“分身”的语音、合成等技术模拟真人播报画面。这种播报形式,突破了以往语音图像合成领域中,只能单纯创造虚拟形象,并配合语音输出唇部效果的约束,提高了观众信息获取的真实度。利用“搜狗分身”技术,“AI虚拟主播”还能实时高效地输出音视频合成效果,使用者通过文字键入、语音输入、机器翻译等多种方式输入文本后,将获得实时的播报视频。这种操作方式将减少新闻媒体在后期制作的各项成本,让新闻视频的制作效率有了提高。[5]

“AI合成主播”拥有和真人主播同样的播报能力,能24小时不间断播报。[5]

发展动态

2019年2月19日[6],搜狗公司与新华社新媒体中心联合发布了首个站立式AI合成主播,新的AI合成主播从过去的“坐着播新闻”升级成结合肢体动作的“站立式播报”,标志着“搜狗分身”技术再次取得突破。[6]

2019年3月,新华社联合搜狗公司近日在京发布全新升级的站立式AI合成主播,并推出全球首个AI合成女主播。[7]

升级亮点

新版的AI合成主播采用了wavernn波形建模技术,替换掉传统声码器,实现音频合成。通过模型优化及多风格数据的使用,新版的AI合成主播实现了表情合成、肢体动作与语义的匹配。

随着图形生成引擎的优化,AI合成主播从过去的“坐着播新闻”升级成结合肢体动作的“站立式播报”,利用“搜狗分身”技术继续赋予AI合成主播肢体语言的能力,让AI合成的主播更智能。

研发意义

“AI合成主播”不仅在全球AI合成领域实现了技术创新和突破,更是在新闻领域开创了实时音视频与AI真人形象合成的先河。“AI合成主播”结合新华社“现场新闻”报道,将“AI合成主播”与短视频一体化生产制作。[8]

最新推出的站立式AI合成主播即将投入到2019年新华社全国两会的报道筹备中,并将在搜狗搜索输入法等平台上与用户见面。

随着“搜狗分身”技术能力的不断提高,AI合成主播的定制周期也降低,合成效果和稳定性也有提升。仅靠少量用户真实音视频数据,即可定制出高逼真度的分身模型,帮助媒体在融媒体转型、新闻时效性、跨语种传播能力等领域升级。[9]

媒体评论

参考消息

》报道

援引外媒报道称,中国的新闻主播可能面临一些新的竞争——人工智能机器人在播报新闻时可以模仿人的面部表情和举止。[8]

除此之外,《泰晤士报》、福克斯新闻、今日俄罗斯电视台、法兰西24电视台、《新闻周刊》、《洛杉矶时报》、美国国家公共电台等媒体也进行了报道。

路透社

》报道

路透社报道称,这个AI主播是以中国新闻主播邱浩为原型的,它身穿黑西装打着领带。这是中国旨在提升其在人工智能技术方面能力努力的一部分。[8]

独立报

》报道

英国《独立报》网站则称,新华社的AI主播是一位栩栩如生的数字化播报员,可以通过模仿真人主播的形象和声音朗读文本内容。

在受到赞许的同时,有些媒体认为“AI合成主播”还需要进一步完善。美国《赫芬顿邮报》网站称,新华社似乎知道AI主播是需要不断完善的,正如AI主播在其首次播报中所强调的那样。它说:“作为一名正在研发中的人工智能新闻主播,我知道我需要改进的还有很多。谢谢。”[8]

学者的分析

英国谢菲尔德大学人工智能和机器人学荣誉教授诺埃尔·夏基表示,AI主播是一个不错的尝试,今后我们会看到它不断改进。