“one car come, one car go, two car pengpeng, one car die.” 这样的典型“Chinglish”(中式英语)无论是中国人或是外国人看了都不禁会心一笑。
近些年,亚洲人的英语发音一直是美国影视剧中的吐槽对象,但随着技术的进步,越来越多的人可以借助电子设备来纠正测评自己的口语了。
目前,语音识别和测评技术目前广泛地应用在考试、辅助教学以及外语学习产品中,Rosseta Stone、多邻国、英语流利说等产品的诞生与发展跟语音技术密不可分。这次,多邻国的语音技术工程师秦龙来分享一下他们是如何利用语音技术做英语学习产品的。
语言教学中的语音语言技术在学术界一般称为CALL系统(computer aided language learning),具体到语音识别技术,主要是两方面的应用:
1)对语音的流畅度自然度进行打分,通俗的说就是评测用户的发音和母语说话人的接近程度。
2)识别出语言后,对语言组织进行后续的检测。
具体到多邻国的产品中,语音技术多用于以下两种学习场景:
一般来说,口语学习需要锻炼两方面的内容,一个是发音,另外一个是自我组织语言。因此,第一种学习场景,也是最常见的就是大声朗读。用户根据提供的示例录音,重复一段简短的句子,然后系统通过语音识别技术自动的对用户语音的流畅度自然度进行打分。同时在Chrome浏览器下,还会为用户提供一些发音反馈,比如哪些词读的比较好,哪些词的发音不够准确等。
第二种练习项目是语音翻译,用户往往不仅需要通过语音作答,而且需要自己来组织语言。在这个练习中,用户看到的是母语,需要自己组织语言将这句话翻译成正在学习的语言,并将其朗读出来。在这一应用场景下,首先需要通过语音识别技术将用户的语音识别成文字,然后再通过自然语言处理技术来分析用户的用词是否准确,语法是否规范,以及内容是否贴切。目前这项练习仅支持Chrome浏览器,近期将会加入app。
显而易见,相比于大声朗读,第二种应用场景更为困难,也面临着更多的技术难点。
要帮助用户更高效地学习,涉及到的不仅仅是语音技术,更为重要的是机器学习和算法,秦龙说,“当用户使用多邻国进行口语练习时,我们会让用户更多的练习那些他们说错的词,少练习掌握的很好的词,提高学习效率。”
根据用户对于具体词汇的错误率、熟悉程度等因素进行考量,由机器学习算法来决定在每个课程中用户所看到的不同的习题。多邻国在最近宣布1亿美元融资的公告中也提到,融资之后会将重点放在机器学习和自适应课程的开发上。
目前的语言学习平台还有诸多不完美之处,比如机器有时会在评判用户语音时犯错误,给出的反馈比较少或者不准确,或者是学习材料过于单调、枯燥、缺乏变化。多邻国正在从技术和课程双方面去改进:一是通过算法提供更细致的反馈,另一方面是增加练习素材的多样化,为用户提供在不同语境下练习口语的机会。
多邻国在全球有1亿用户,积累了海量的用户学习行为和数据,在工程师们不断改进提高评测算法的时候,有一个很有趣的发现。“有时候,我们觉得算法更加准确了,但用户的活跃度却降低了,这让我们百思不得其解。
后来,通过对数据的分析,我们发现,由于新算要求用户对发音更加准确,也就是说口语练习更难了,这导致用户语音训练的通过率降低,从而影响了用户的活跃度。也就是说,用户往往希望有更准确的算法,同时,又不希望练习变难。打个比方就是,学生希望考试的时候老师的评卷准确给出的反馈好,但是题不能难,要避免让学生挂掉这科。”所以但其实算法也不是越准确越好,需要找到那个微妙的平衡点。
跟着机器学习口语有助于部分用户克服“不敢说”的障碍,而且有传统的教学模式难以比拟的便捷性。但是作为语音技术工程师,秦龙并不认为跟机器学习口语会完全代替人类。机器可以很好地识别、理解比较结构化的语音语言,根据这个特点,工程师能设计出很好的口语学习方法。
但是在我们使用语言的时候,会有很多非结构化,不符合语法甚至可以说是“错误”的表达方式。比如,在日常人与人的对话中,会有很多有很多停顿、重复、语气词。或者使用很多代词来指代某个人或者某个事情,目前的语音技术和机器学习技术还难以解决前面提到的这些问题。不过在未来,每个人也许都会有一个计算机虚拟助手,帮我们进行包括语言学习在内的很多活动。就像电影《Her》里一样,每个人都有一个「OS1」。
作者:芥末堆 - 阿槑
? jiemodui.com