在基于实例的机器翻译中,句子相似度计算是实例匹配的有效机制。该文对基于相同词的句子相似模型作进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词的情形。实验结果表明,改进方法比原方法具有较高的准确率。关 键 词 自然语言处理; 基于实例的机器翻译; 句子相似度; 基于词基于实例的机器翻译(Example Based Machine Translation,EBMT)是以双语对齐的实例库为主要知识源,输入一个待翻译的源语言句子,从实例库中查找与输入句最相似的例句,再模仿例句的译文来实现输入句的翻译。在EBMT中,实例匹配是关键,直接关系到系统本身的翻译质量。实现实例匹配的有效机制是进行句子相似度计算[1-2],目前主要有基于词[3-5]和基于句法语义分析[6-7]的两类方法。两类方法各有优缺点,基于词的方法简单、流行,但由于仅利用句子的表层信息,即组成句子的有关词汇的词法和语义信息,因此,在判断句子整体结构相似方面有欠缺;基于句法语义分析的方法折衷考虑句子的组成词汇语义信息与整体框架结构信息,但在折衷考虑的层次上较难把握。本文研究基于词的句子相似度计算问题,并在文献[5]的基础上提出了一种改进的方法。1 基于词的句子相似度计算基于词的方法是目前最简单、最流行的方法,依据词的形态变化、同义词、反义词以及更进一步的语义距离来判断孤立词之间的相似度,再通过这种词间相似度的不同组合来确定句子间的相似度。文献[3]利用同义词表计算两句词之间的语义距离,进而计算两句之间的相似度。文献[4]通过正反双向比较两句相同词的个数及其位置关系,得到一个转换表达式和子块库,再通过系统预定义的翻译模式和限制条件实现两句相似度的计算。文献[5]通过比较两句相同词的个数及其位置关系,得到两句的词形相似度和词序相似度,再通过词形相似度和词序相似度计算两句的相似度。文献[4-5]采用的方法实质上是相同的,均通过比较相同词的个数及其位置关系来计算两句的相似度。但在相似度的定义中,仅考虑了形态上相同的词,而没有考虑同义词的情形。例如,对两个简单的句子“我/ 是/ 老师/ 。/”与“他/ 为/ 学生/。/”,按照文献[5]中的方法计算则相似度很低(只有0.1),实际上这两句是比较相似的。究其原因,主要是没有考虑两句中的同义词“是”和“为”。另外,也没有考虑任何句法结构信息。因此,在算法实现上虽然较为简单,但准确率却不高。基于词的方法依据句子的表层信息,通过对这些表层信息的加工也可以获得一些有用的句法结构信息,如抽取一些能够近似表达部分句法结构信息的关键性的词(以下简称关键词)。在此基础上进行句子相似度计算,就会具有较高的准确率。本文针对以上两点作了进一步的改进。2 一种改进的方法本文对文献[5]中的句子相似模型作了进一步改进,包括关键词抽取,以及在句子相似度的定义中考虑同义词的情形。令inp为待翻译的输入句,exa为对应的m个例句中的一个,先分别抽取inp和exa中所有的名词、代词、动词或形容词,并组成相应的关键词序列,再求出inp和exa中关键词序列的相似度,最后选取大于规定阈值的最大相似度例句作为输入句的最相似例句。2.1 关键词抽取由语言学知识可知,任何句子都是由关键成分(主、谓、宾等)和修饰成分(定、状、补等)构成的。关键成分对句子起主要作用,修饰成分对句子起次要作用。进行句子相似度计算时,只要考虑句中的关键成分。基于词的方法不考虑句法结构分析,因此,不能确定句子的内部成分,包括关键成分和修饰成分。在通常情况下,一个句子中作主语和宾语的多为名词或代词,作谓语的多为动词或形容词。因此,可以将一个句子中的所有名词、代词、动词和形容词作为关键词,并在计算句子相似度时只考虑这些关键词。例如,句子“我/ 当然/ 愿意/ 了解/ 她们/ 的/ 要求/ 。/”的关键词序列为 “我/ 愿意/ 了解/ 她们/ 要求/ 。/”。对于特定句中的某个名词、代词、动词或形容词,不一定就是该句中的主语、宾语或谓语成分,但相对于句中所有的词构成的词序列而言,关键词序列却具有一定的句法结构信息表达能力,至少可以了解句子中的哪些词在组成句子框架结构方面是比较重要的。在此基础上进行相似度计算,比一般基于词的方法准确一些。
猜您喜欢
推荐内容
开源项目推荐 更多
热门活动
热门器件
用户搜过
随便看看
热门下载
热门标签
评论