人工智能 (AI) 首次能够在识别日常对话方面达到比人类更高的准确度。 将来,该技术可以作为自动翻译的基础。
Alexa、Cortana 或 Siri 等数字助理可以自动转录语音文本和翻译。 为此,语音识别系统使用人工神经网络,使用库将声学信号分配给单个音节和单词。 现在,当直接向助理讲话或大声朗读文本时,结果非常好。 然而,在日常生活中,问题仍然经常发生,正如波鸿鲁尔大学 (RUB) 最近进行的一项研究表明,这些问题也可能导致语音助手被误解的信号词无意中激活。
几个人之间的对话目前也还是经常出现问题。 卡尔斯鲁厄理工学院 (KIT) 的亚历克斯·韦贝尔 (Alex Waibel) 表示,“人们互相交谈时会出现打断、口吃、充满‘啊’或‘嗯’之类的声音,还有笑声或咳嗽声。 此外,正如 Waibel 所解释的那样,“单词的发音常常不清晰。 结果,即使是人类在创建这种非正式对话的精确转录方面也存在问题。 然而,人工智能(AI)带来了更大的困难。
人工智能的日常对话有问题
根据 arXiv 发布的预印本,Waibel 周围的科学家现在已经成功开发出一种人工智能,可以比人类更快更好地转录日常对话。 新系统基于一项技术,可以实时翻译大学讲座的德语和英语。 所谓的编码器-解码器网络用于分析声学信号并为它们分配单词。 根据 Waibel 的说法,“自发语音的识别是这个系统中最重要的组成部分,因为错误和延迟很快就会使翻译变得难以理解。
提高准确性并减少延迟
现在,KIT 科学家已经显着增强了系统,特别是显着降低了延迟。 Waibel 和他的团队使用了一种基于某些单词组合概率的方法,并将其与其他两个识别模块联系起来。
在标准化测试中,新的语音识别系统听取了大约 2,000 小时电话对话的摘录,系统将自动转录这些内容。 根据 Waibel 的说法,“这里的人为错误率约为 5.5%。 另一方面,人工智能仅实现了 5.0% 的错误率,在识别日常对话方面首次超过了人类。 延迟时间,即信号到达和结果之间的延迟,也非常快,平均为 1.63 秒,但还不太接近人类 1 秒的平均延迟。
将来,新系统可以用作自动翻译或计算机处理自然语言的其他场景的基础。