近日,全球语音顶会INTERSPEECH 2020 公布了论文接收结果,云知声联合上海师范大学、安徽大学等高校发表多篇论文成功入选。分别在中英文混合语音识别、大词汇量连续语音识别和多模态虚拟形象生成等领域取得突破,代表着云知声在语音及多模态交互领域持续的底层技术创新。同时,云知声也是今年会议的金牌赞助商,致力于加强工业界和学术界的技术协作,支持会议顺利举行。

INTERSPEECH 是世界上规模最大、最全面的顶级语音领域会议,由国际语音通信协会 ISCA(International Speech Communication Association)组织。该会议每年举办一次,今年大会是第 21 届 INTERSPEECH 会议,也是第二次在中国举办。本届会议以“Cognitive Intelligence for Speech Processing”为主题,内容涵盖信号处理、语音识别、自然语言处理、神经机器翻译等领域,收到超过 2100 篇投稿论文。会议研究成果代表着语音相关领域的最新研究水平和未来的技术发展趋势。

作为 INTERSPEECH 会议的一部分,国际语音合成比赛 Blizzard Challenge 2020 研讨会将于 10 月 30 日举行。Blizzard Challenge 是当今全球规模最大、最具影响力的语音合成领域顶尖赛事,在今年的 Blizzard Challenge 比赛中,由云知声-上海师范大学自然人机交互联合实验室申报的系统在强敌环伺的赛场中突出重围,首次参赛即斩获中文普通话、上海话多项关键指标第一。在 10 月 30 日的研讨会上,研究团队会通过 live online oral presentation 的形式对参赛系统进行详细解读,欢迎参与和讨论。

中英文混合语音识别

在中英文混合语音识别方向,针对混合语言语音 (code-switching) 场景,研究团队提出了一个基于Transformer模型的多编码器-解码器结构的语码转换混合语音识别方案(Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition),该结构具有两个对称的与特定语言相关的编码器,以捕获各种语言的特有属性,从而改善每种语言的深度声学表示。这些深度表示被进一步在解码器模块中使用特定于语言的多头注意力机制进行有效整合,以最终提升整个端到端识别系统的性能。同时,团队还使用了大规模单语言语料库对每个编码器及其相应的注意力模块进行了预训练,旨在减轻语码转换训练数据不足的影响。借助预训练方式,研究团队的模型分别在 SEAME 中以中文和英文为主的评估集上达到 16.7% 和 23.1% 的词错误率,刷新了在此数据集上的最好成绩,相对之前论文的最佳成绩提升了12.5%的性能。

语码转换语音实例及多编码器的输出

大词汇量连续语音识别

研究团队提出了一种新颖的带深度声学结构和 Self-and-Mixed 注意力解码器结构(Self-and-Mixed Attention Decoder with Deep Acoustic Structure for Transformer-based LVCSR),其利用具有深度声学结构的 Self-and-Mixed 注意力解码器,以改善基于 Transformer 的大词汇量连续语音识别的声学表示。具体来说,研究团队引入一种自注意力机制,以获取深层的声学表征。研究团队还设计了一种混合注意力机制,该机制可以在共享的特征空间中同时学习不同层次的声学表征及其对应的语言信息之间的对齐关系。本项研究工作在 AIShell-1 数据集上曾刷新最佳成绩,字符错误率降低至 5.1%,相对之前的最佳成绩提升了 24% 的性能,显著提升了识别效果。

多模态虚拟形象生成

如何在提高虚拟人面部动作的丰富和自然度,是目前虚拟人生成的热点问题。研究团队提出了一种基于面部关键点和改进的 GAN 模型的两级模型生成方案,实现从语音到虚拟人形象的生成,在本方案中,利用面部关键点作为语音特征到视频生成之间的信息表达中介,同时引入 attention 机制,解决在虚拟人生成过程中不同区域因子对视频效果质量的影响。实验生成的视频结果表明本方法保持了丰富的面部细节、精确的嘴部动作和自然的头动效果。在娱乐应用、拟人化交互等领域有广泛的应用和落地场景。

人工智能成功的关键在应用,而所有应用皆源自底层技术。为不断拓宽自身基础能力边界,云知声深入布局了语音、语言、视觉图像、机器翻译、AI芯片等诸多方向,形成丰富的具备全球领先的原创技术积累,相关研究成果多次在 NIPS、NIST、WMT、ACL 等全球顶会与赛事中得以印证。

本次在 INTERSPEECH 2020 大会上这些原创技术的提出,也将进一步夯实云知声全栈+硬核的人工智能技术“底座”,提高云知声在智能语音和多模态人机交互领域的技术领先性,推动人工智能系统以更人性化、高效的方式服务于千行百业,为用户带来更好的交互体验。