研究序列平行文本中对应词语序列识别及运用研究

更新时间:2024-03-04 点赞:5936 浏览:15986 作者:用户投稿原创标记本站原创

摘要:平行文本中存在大量的词语序列式的翻译对等,这些序列虽然不是翻译过程中最小的语言单位,但它们高频出现,体现了跨语言交际的意义实现机制和文本构成特点。本文基于交大平行语料库数据,重点介绍对应词语序列的识别和界定标准,以及对应词语序列在平行文本对齐和对比短语学等方面的相关应用研究,具体包括:双语双向的多级别对齐、词语搭配的对应、对应序列的形式与意义研究等。
关键词:对应词语序列;意义单位;平行文本对齐;对比短语学
1001-5795(2013)05-0036-0005
1 对应词语序列的研究背景
语言是一个双项系统:由单词和语法规则构成的分析体系以及由意义单位构成的规约体系。前者基于开放选择原则,后者通常遵守成语原则。Sinclair(1991:114)曾指出成语原则是语言组织的重要基础,符合语言使用中信息处理的经济原则,而意义单位承载了大量的语言信息和文化内涵,体现了意义表达的概念结构。传统的语言描述理论倾向于把单个的词项作为意义单位,而语料库语言学则认为语言交际过程中的意义实现并非基于单个词项的选择,而是基于各种各样词组的选择;意义单位不是单个的词项,而是词语序列。这是因为处于同一语境的单词,其意义相互影响、相互感染,意义在语境中弥漫,其间没有截然的区隔点,我们很难准确地区隔词义的边界,因此往往是由多个单词组成的词语序列在表达明确的意义(卫乃兴,2011a:29-34)。这些词语序列根植于真实的语言使用,密切相关于语言的因循性和成语性,对文本的构筑作用远远超出传统语言理论所能作出的估计。
然而,意义单位的概念是在单语视角下提出的。在平行语料库研究中,很多研究者尝试从双语或多语的视角下来探讨平行文本的意义实现机制。Newmark首先提出了“翻译单位”(translation unit)的概念,将其定义为“可以作为一个单位整体翻译的最小语言片断”(Newmark,1988:54)。Teubert则认为翻译单位是“翻译中最小的无歧义的语言单位”(转引自Wang2006:2);它可以由一个核心词和同语境下所有的单词构成,并且在目标语中只有一个翻译对等,如果存在多个对应表达,则这些表达具有同义关系(Teubert,2004:184-185)。虽然Teubert也指出“在双语语境下,研究者应该关注更大的语言单位的翻译对等,而不是单个词之间的对应”(转引自Wang,2006:1),但是定义中“最小的无歧义的语言单位”往往将翻译单位的研究范围限定在了单词之间的相互对应,而且确立后的翻译单位意义表达仍不稳定,其“无歧异”的属性很难得到真正意义上的保证。这是因为有些单词本身的意义就是多元的,一组翻译单位可能在原语境中无歧异,但脱离了语境,表达的意义则会变得模糊。因此,李文中进一步提出了“对应单位”(corresponding unit)的概念,即“对应源文本和目的文本中任何可识别的文本块或片断。对应单位具有意义的完整性和相同性,并且具有各自的句法结构特征”(李文中,2010:22)。对应单位不仅是对翻译单位属性的调整,更是摘自:毕业论文格式下载www.618jyw.com
对其范围的扩容,成功地将更多的有意义的翻译对等纳入了意义研究的范畴。然而,“任何可识别的文本块或片断”没有严格地限定对应单位的语言类别。从理论上讲,单词级、短语级、句子级、甚至更大级别的篇章翻译,都可以视为作对应单位,这不仅模糊了对应单位的特征,也增添了识别和提取的难度。
在平行语料库的建设过程中,我们发现平行文本中存在大量的词语序列式的翻译对等,内容涵盖了搭配、复合词、习语、固定和半固定词组、以及大量不完整的词语片语等复杂语言形式。这些表达虽然不是翻译过程中最小的语言单位,但是它们高频出现,对应严谨,且意义边界清晰,对平行文本的构筑作用不容忽视。因此,我们提出了“对应词语序列”的概念,着眼于词语序列式的翻译对等,简称为“对应序列”。本文将基于新建的交大平行语料库数据,重点讨论对应词语序列的识别和界定标准,以及对应词语序列在平行文本对齐和对比短语学研究等方面的应用意义。
2 交大平行语料库
上海交通大学英汉双向平行语料库(以下简称为交大平行语料库)采用的是多引擎机制的研究体系,主要服务于确立双语对应词语序列、建立存储对应序列的数据库、及实现短语、句子、段落等不同层级的对齐等。交大平行语料库收集了国际政治、科技、人文三个学科领域的双语双向平行文本共计215713句,总库容为8989638字(词)次,其中英语文本有6170篇,总形符3626890词次、类符54973词;汉语文本6170篇,总形符5362748字次、类符4607字。全库包含的双向翻译文本信息如下:汉语原语文本1906篇,共1521399个形符(字次),3573个类符(字);对应的英语译文文本有1163522个形符(词次),22682个类符(词)。英语原语文本4264个,共2463268个形符,50116个类符;对应的汉语译文文本3841449个形符,4402个类符。详细的统计信息见表1。
为配合对应词语序列的识别和提取,我们开发了平行语料库操作平台系统。在该软件的辅助下,我们共计从交大平行语料库中提取出590799组对应序列,其中国际政治子库212112组,科技子库276321组,人文子库102366组。分布数据详见表2。
3 对应词语序列的界定和识别
平行语料库的研究实践使我们对语言形式的选择和文本构成有了全新的认识,我们发现跨语言交际中,意义实现的主要载体是词语序列式的表达,这些序列可能是一般的词语搭配,也可能是大于搭配的各种固定和半固定词组、成语、词块、程式语、篇章性句干等等。以翻译为例,在翻译过程中,译者往往不是依据单个词义逐词翻译,而是更多地先将原文文本切分为大小不等的若干语块,整合其意义,并将其整体转述为目标语的合适表达。因此翻译单位也主要是各种多词序列,甚至是文本片段(卫乃兴,2011a:29-34)。同一个原语文本的词语有时会被译为多个不同的目标语表达,我们称之为多个翻译对等(translation equivalents),如交大平行语料库数据显示,“重视”被译为“attachimportance to”,“values and cherishes”,“sets store by”。“pay close attention to”等不同词组,而这些词组分别与“重视”构成了几组对应关系。 本文暂将“对应序列”定义为原语文本和目标语文本中可以相互识别的、具有翻译对等关系的词语序列组对。其识别和提取过程完全基于语料库证据,充分尊重真实语言使用和翻译事实。具体说来,对应序列具有三点特征:其一,对应序列是由原语言中的意义单位和目标语中的翻译对等构成的二元组,如“经济运行”和“economic performance”,“填补……的空白”和“fill in the gap of”等。其二,构成对应序列的翻译对等在各自语言(原语言和目标语言)文本中均无歧义,包括本身无歧义或已具备消歧环境。其三,对应序列不等同于具有翻译对等关系的最小跨语言单位,它可以被分解为更小的语言结构,或是被扩展为结构、意义更加复杂的翻译对等表达。
在实际操作过程中,我们开发了平行语料库操作平台系统,采用机助人工的方式确立对应词语序列。平行语料库操作平台系统可以协助工作人员整理和标记语料,识别对应序列。具体工作原理为:每次处理完一组平行文本时,中专生毕业论文www.618jyw.com
系统会将已标注的所有对应序列及其相关信息添加到对应序列数据库。当再次输入一组新的双语文本时,该系统就会基于数据库中业已收录的对应序列,优先对该双语文本的对应词语进行智能检索与匹配,此时只需人工确定该组文本中还未被识别和收录的对应序列即可。随着数据库的丰富,对应词语序列概率信息愈趋于稳定,其处理双语文本的能力也越来越强。
对应序列是基于语料库数据提出的实用性操作概念。平行语料库提供了意义序列的边界,使我们能在双语视角下,借助语际参照,观察意义单位并确立对应的词语序列,从而克服传统理论和单语视角造成的障碍和困难。因为在单语视角下,我们会趋于自上而下地将词语序列切分为小的单位,直至单词;但在双语视角下,长度不等的词语序列相互对应、相互解释,揭示出使用中的翻译对等关系。对应词语序列是开发平行语料库对齐技术、研究跨语言词语对比、探讨翻译策略、以及编撰双语词典的重要资源。本文将重点介绍对应序列在平行语料库对齐和对比短语学研究中的相关应用。
4 对应词语序列在平行语料库对齐中的应用
平行语料库的建设是利用计算机对齐技术,将原语文本与译文文本在词语、句子或段落等层级上建立连接。因此,开发不同级别的对齐技术是平行语料库构建过程中的一个核心问题。平行语料的对齐不仅是机器翻译中实例库构建的关键环节,还是基于语料库数据获取语言知识、进行对比词语研究的必要前提。Kay和Roscheisen(1993:121-142)提出了最早的平行语料自动对齐算法。之后各种对齐方法层出不穷,包括:句长对齐法、词汇对齐法(如词典法、锚点法)、混合法等。例如,王飞(2004)结合了句长法和词典法,通过确定锚点句对对平行语料进行划分,实现了双语句子层级对齐。祝志杰(2002)根据汉英两种语言自身的一些特点,提出了另一种词汇信息和长度相结合的汉英句子对齐法。
纵观国内外研究,传统的双语双向对齐技术多是从段落对齐到句子对齐,进而到短语层级的对齐。目前,段落级的自动对齐已解决。通过使用各种语言规则和统计算法,句子级对齐也能够基本实现,虽然对齐的准确性仍受语域、文本类型等多项因素的较强干扰。现阶段的英汉双向对齐技术的开发也多是停留在句子级别,许多研究者试图建立一个准确、可靠、实用的双语句子对齐系统,但是如何基于段落对齐和句子对齐实现短语层级的对齐,却成为了“自然语言处理研究人员的脖颈之痛”(Sag等,2001:1)。如图1所示。
我们发现,对应词语序列是实现双语双向多级别对齐的一种有效方式。在进行平行语料对齐时,我们回避了传统的从段落对齐到句子对齐再到短语级对齐的方法,而是首先通过机助人工识别和提取平行文本中的对应词语序列,创建一个动态的对应序列数据库。每组对应序列在该数据库中都有一个记录,包括:该对应序列在整个平行语料库中的频数,在哪些文件中出现和在每个文件中的出现频数,以及对应序列中文部分在相应中文文件中的位置和英文部分在相应英文文件中的位置等基本信息。采用这样的方法,我们不仅实现了短语层级的对齐,而且每一组对应序列都配有两组指针分别指向文件表(该对应序列出现的所有文件名)和位置表(在每个文件中出现的具体位置)。据此,可以将提取的对应序列视为锚点,然后使用锚点算法,分别实现双语文本句子级和段落级的自动对齐。基本思想如图2所示。
5 对应词语序列在对比短语学中的应用
在对比语言学和跨语言交际研究领域,对比短语学以及更广义的对比词语学正日渐崛起,成为一个重要的研究方向。对比短语学旨在发现和描述跨语言的对应意义单位,它聚焦于双语词语的组合行为异同,尤其强调在形式、意义和功能等层面上的对比研究(卫乃兴,2011b:32-42)。具体说来,下述两个方面的对应序列研究应颇具价值,或可成为未来基于语料库的对比短语学研究的新趋势。

5.1 词语搭配的对比研究

弗斯语言学视词语搭配为意义单位。从某种意义上讲,以词语搭配为研究单位是对比短语学区别于以往对比研究的重要方法之一,直接指向双语交际中的对应意义单位。平行语料库更可以为搭配研究提供丰富的语境信息和双语(多语)参照,帮助消除单语视角下的单词可能产生的歧义。本节以“激发”为例,简单描述各翻译对等的搭配特征。
汉语的“激发”在交大原语言语料库中出现64次,其中28次被译为“stimulate”,占总频数的43.75%;15次译为“excite”,占23.44%;其他翻译包括“arouse”7次,“inspire”5次,“motivate”3次等,可谓实现的意义颇多。我们分别检索各翻译对等在英语原文本中的典型搭配名词,详见表3。
表3数据表明,上述5个英文表达的搭配相互交错,在一定程度上对应于汉语的“激发”;它们的意义有重叠部分,但并不完全同义,搭配行为也不尽相同。例如,“stimulate”、“arouse”、“inspire”、“motivate”都可与表达积极涵义的名词搭配,如“efforts”、“enthusia”、“creativity”、“growth”等,显示出“积极向上的主观意愿”或“让人乐于见到的客观发展”的语义趋向。而“excite”在表达“激发”的概念时,其后的搭配名词多为科技术语和半术语,表示科学研究中的概念或过程,如“electron-hole pairs”、“GFP”、“cvlindrical flux tube”、“a-e supply”等。“excite”则用于表达“促进”或“加快”某项科学事实的进程。然而;当我们着眼于搭配序列,将关键词、搭配词连同语境一起研究时,我们发现搭配序列的对应关系清晰明确且数量有限,有时甚至仅存惟一的对应,例如“激发努力”通常对应于“stimulate efforts”和“motivate efforts”,而很少被译作“excite efforts”、“arouse efforts”或“inspire efforts”;“激发反美主义”一般对应于“arouse antl-Amencam”,“激发了人民群众的社会主义积极性”对应于“stimulate mass enthusia of sociali”,“激发哲学(思想)”对应于“inspirephilosophy”,“激发态”通常被译为“excited state”等。

5.2 对应序列的形式与意义研究

语言形式的选择和意义紧密相关,对应序列更是形式、意义和语境共同作用选择的结果。在双语文本的环境下,对应词语序列的物理边界相对清楚,不仅可以帮助我们研究形式与意义的密切关系,而且词语选择的微妙差异更能够凸显意义实现的精致性。
例如,“拒绝”在交大平行语料库中出现145次,最常分别被译成“refuse”(72次),“reject”(39次),“deny”(12次)等。但是脱离语境,这些英语表达都不是“拒绝”很好的翻译对等。双语文本数据显示,“拒绝”的上述3个翻译对等的使用和语境意义紧密相关,是语境意义实现所选择的结果。它们虽然都可以表达“拒绝”的意义,但又不完全同义。表4分别列举了“refuse”、“reject”和“deny”的5个频数最高的搭配序列。
表4数据显示,“拒绝零假设”通常被译为“reject the null hypothesis”而不是“deny the null hypothesis”。“refuse the null hypothesis”等,详见示例(1);“拒绝…事实”则更适合被译成“deny the facts(of)”而不是“refuse the facts(of)”,“decline the facts(of)”等(示例(2))。扩展语境如下,所示证据均来自交大平行语料库。
(1)因为我们得到的t值大于

2.576,所以可以有99.5%的信任度拒绝零假设。

Since the t we got is larger than 2.576, we can reject the null hypothesis with 99.5% confidence.
(2)在这一方面拒绝历史事实,……同样是不许可的,是有害的,是不利于当前作战的。
In this connection, it is equally impermissible,disadvantageous and harmful to our present operations to deny the facts of history,……
由此可见,语言形式和意义紧密关联,意义和语境密切相关。孤立地看一个单词,我们很难确定它的意义,或者说它有大量潜在的模糊含义。但是,将形式和意义综合考虑,将词汇放在搭配环境中观察,可能的模糊意义便不复存在。在跨语言交际中,语言使用者总是根据具体的语境意义选择最适合的对应词语序列,这是因为对应序列的意义边界清晰,反映了真实的语言使用,双语文本更能够提供较为全面的语境信息,它所揭示的翻译对等及其使用特征甚至比一般词典更为详细。
6 结语
本文基于交大平行语料库数据,介绍了对应词语序列的识别和界定标准,以及对应序列在平行文本对齐、对比短语学等方面的相关应用研究。
毋庸讳言,“对应词语序列”还只是操作概念,某些识别标准尚需更严格地界定,并一以贯之,最大限度的降低人际识别差异。在语料库的建设过程中,我们发现无论是单语理论还是双语研究,意义实现的主要载体都是词语序列式的表达,这些语言单位和它们的翻译对等高频出现,有些甚至成为了固定翻译,体现了跨语言交际的文本构成特点,或将成为未来对比语言研究的新热点。
从应用价值角度讲,对应词语序列还可以用于自然语言处理中的词义消歧。我们利用平行语料的特点,在两种语言比一种语言含有更多信息认识的基础上,以原语言词语序列作为目标语言序列的附加信息,排除目标语序列的歧义;同时以目标语序列作为原语序列的附加信息排除原语序列的歧义,使排歧在两种语言之间进行。这种同时分析两种语言的方法要比分析一种语言容易,难度上体现出“1+1<1”的优越性。
此外,对应词语序列还是探讨翻译策略、构建翻译单位数据库、以及双语词典编纂的重要资源。对应序列或将成为新一代双语词典(英汉汉英)编纂的核心,可以帮助和改进人工翻译。如果数据资源足够充分,还可以使机器翻译在多个领域的真实文本中得以进行。尽管如此,对应序列的实际应用仍有待于后续研究和开发,一些理论和技术上的问题也有待进一步的解决。一般论文格式范文www.618jyw.com
相关文章
推荐阅读

 发表评论

共有3000条评论 快来参与吧~