第67章你们能比我更懂机器翻译（5k）(3/8)

果你不好好记下来，到时候被开除只是教授一句话的事。

    “好了刚才我们讲了一些简单的内容，现在才是最难的。

    因为IBM的机器不是那么强大，我们只能引入一些比较简单的统计学方法来提高我们翻译的准确度。

    我把它叫做基于频率的词对齐。

    这也是我们引入统计模型的核。

    我们先要手动分析平行句子，标注俄语词或短语与英语翻译的对应关系。

    俄语句子Мыговоримомире

    英语翻译：“We speak about peace

    对齐结果：“мы”对应“we”

    “говорим”对应“speak”

    “о”对应“about”

    “мире”对应“peace”

    然后我们需要对这种对齐的频率进行统计。

    统计每个俄语词或短语在英语中的对应翻译出现的频率。

    例如，在语料中，“говорим”在80%的句子中翻译为“speak”，20%翻译为“talk”。

    这样对于我们就可以构建概率表了。

    将这些概率整理成表格，供机器进行查询。由于内存空间有限，我们暂时只存储高频词对，像出现次数前1000的词对，忽略低频情况。

    当翻译某个词的时候出现多个选择，就参考概率表选择最可能的翻译。

    另外就是统计相邻词的共现频率。мы经常与говорим一起出现，对应We speak，机器在翻译的时候则优先选择这个组合。

    通过规则优先处理和统计方法处理模糊情况的方式，来弥补规则的不足！”

    林燃从统计学的角度给他们好好上了一课。

    不过这只是一个开始。

    在座的研究团队们知道了林燃优化策略的轮廓，具体实践过程中还有大量的细节要进行调整、尝试和优化。

    不过光是现在所说的引进概率，这一点，在座乔治敦翻译机器的资深研究员们都有种恍然大悟的感觉。

    前面讲的优化算法和规则设计什么的，他们感觉有道理，但判断不了具体实

第67章 你们能比我更懂机器翻译（5k）(3/8)

第67章你们能比我更懂机器翻译（5k）(3/8)