宾夕法尼亚大学的语言学教授、语言数据联盟的带头人Mark Liberman说,关于语言技术如何走过寒冬的故事,既包括实用性,也涉及普遍性。在那些“黑暗”的日子中,研究者一般都不指出自己的研究方法,并且用一种很难评估的方法来描述研究成果。但是,从20世纪80年代开始,美国 DARPA的成员 Charles Wayne 鼓励他们尝试另一种方法——通用任务。
在音素级别,每种语言都有允许或者禁止的字符串 。同样的话语。一些字符串比其他更常见。 在做出关于同音词的猜测时,计算机将会记住在其训练数据中,短语“拥有武器的权利”(the right to bear arms)比“裸露手臂的权利”(the right to bare arms)出现得多,因此将做出正确的猜测。
Switchboard Corpus 的错误率是一个广泛使用的基准,因此可以与其他的质量改进声明进行比较。十五年前,语音识别质量停滞不前,错误率为20-30%。微软的最新系统,有六个神经网络并行运行,错误率已降到5.9%,与人类转录的相同。微软首席演讲科学家黄学东表示,他原本的预计是,还需要两三年才能达到人类水平。
除了编程中大量的语法规则和例外带来的困难,一些早期的观察者注意到一个概念上的问题。即一个单词的含义通常不仅取决于其字典定义和上下文语法,而且取决于句子其余部分的含义。以色列MT领域的先导Yehoshua Bar-Hillel注意到“the pen is in the box”和“the box is in the pen”这两句话中,“pen”的翻译应该是不同的:能够装下“盒子”的“pen”应该是“围栏”,而不是“钢笔”。
TAUS 是一个行业团体,最近发布了一份关于翻译行业状况的报告,称“在过去几年中,翻译行业已经涌现出了新的工具,平台和解决方案”。去年 JaUS van der Meer,TAUS的创始人和董事 写了一篇题为“未来不需要翻译者”的挑衅性博客文章,认为MT的质量将不断改进,对于许多应用来说,不完美的翻译已是足够好的。