评分,译文译文,评分译文,评分,大规模测试中学生英译汉机器评分模型构建

更新时间:2024-04-13 点赞:24441 浏览:101593 作者:用户投稿原创标记本站原创

:旨在研制、可靠的英译汉学生译文机器评分系统,大规模测试的自动评分。本探讨三种文体的译文,构建了五种比例训練集的评分模型,模型预测分值与人工评分的系数均高于0.8。并且,当训練集为130篇时,模型对文和记叙文译文的预测分值与人工评分非常接近;当训練集为100篇时,模型对叙议混合文译文的评分与人工评分最为接近。探讨结果,提取的变量预测力较强,不同文体构建的评分模型效果良好,比较准确地预测学生的英译汉成绩。
词:大规模测试;英译汉;机器评分
中图分类号:H319.3 文献标识码:A 文章编号:1001-5795(2012)02-0003-0006
1 探讨背景
主观题的自动评分是测试领域的焦点。英语作文的自动评分探讨已经比较成熟,国外已开发出多个评分系统,并运用于GRE、GMAT等大型考试中。在国内,梁茂成(2005)研制了适合英语学习者的作文自动评分系统,了良好的效果。极少数人也对汉语作文的自动评分了探讨,潜语义浅析的机器评分比较接近人工评分。
在翻译领域,自动评分探讨局限于机器翻译评价。少数探讨者也对学生译文的自动评分了尝试(王金铨,2008)。该探讨构建了诊断性和选拔性评分模型,前者对译文的语义、形式质量细致评分并反馈,后者大规模测试评分。不过,该探讨的文体仅限于记叙文。在英译汉自动评分,王立欣(2007)挖掘了词对齐数量等文本特点,10折交叉检验法来验证模型,具有的优势。不过,该探讨所用语料为广告类段落,人工评分比较粗略,变量也上停留在词汇层面。
在前人探讨的上,拟研制稳定可靠的、适用于学生大规模英译汉测试的机器评分模型。其策略论文范文是:语料库语言学、自然语言处理、信息检索等领域的技术,提取与译文质量的多种文本特点,并对文本特点和人工评分多元回归浅析,构建机器评分模型,回归方程计算同一题目的其他译文的分数,并浅析机器评分与人工评分的。本探讨在人工评分、特点提取、语料类别与已有探讨不同。,人工语义评分以原文的“翻译单位”为单元,翻译单位是搭配规则、作用毕业论文单一、完整的多词单位,于评价译文的语义正误、语法性、连惯性等特点。人工形式评分增加了“风格切合度”标准,英译汉的目的语是学生的母语,译文的语言形式更高的评价标准。,本探讨提取了翻译单位对齐数量等一批新的文本特点。再次,对三种文体的译文建模。不同文体的语篇在内容、语言、风格上都具有差别。本探讨使用的文结构清晰,措辞规范、严谨,句子结构复杂;记叙文运用了比喻、排比等修辞手法,语言流畅,情态,抒彩浓厚;叙议混合文则兼有记叙文和议论文的特点。本探讨探讨了对三种文体的译文质量都具有预测力的变量,有助于提高变量的推广性。
2 探讨设计

2.1 探讨理由

本探讨拟解决理由:
(1)三种文体内,不同训練集数量构建的选拔性评分模型有多大预测力?所预测分数的信度如何?
(2)多少训練集译文大规模测试中英译汉机器评分的?
(3)三种文体的评分模型内,相同特点和不同特点有哪些?为?

2.2 探讨工具

本探讨使用了大量文本浅析和数据浅析工具:
(1)文本预处理工具,为自编的perl程序,用于对文本不规则输入整理,并对文本随机编号、句子整合。
(2)文本浅析工具,用于提取与译文语义质量的文本特点,R软件和perl程序。R是一款统计浅析软件,本探讨使用自编的R程序潜语义浅析,它奇异值分解来压缩词语一文本矩阵,构建潜藏的文本语义空间。探讨者还使用perl程序提取一到四元组匹配数量、评分点对齐数量等文本特点。这些特点的参照是最佳译文集,30篇专家译文和优秀学生译文,待测译文与该集合越接近,译文质量越高。
(3)数据浅析工具,是SPSS,用于计算文本特点与分数的度,回归浅析构建评分模型,验证模型的性。

2.3 探讨

本探讨可分为五个阶段:语料、人工评分、特点提取、模型构建、模型验证,前三个是建模前的准备阶段,下面。

2.3.1 语料

本探讨使用了三组语料,一篇文、记叙文、叙议混合文的汉语译文各300多篇,是国内三所不同高校英语专业三、四年级学生的限时翻译测试译文(60分钟)。三篇原文各约300个词,句意可分为15、15、13个句子。在语料时,呈现语篇,便于学生以整体上把握原文;接着呈现单句,要求学生在各单句下面写出译文,便于整理。

2.3.2 人工评分

在自动评分探讨中,高信度的人工评分是保证机器评分、可靠的。本探讨组织三名有经验的评分员先后细致型和简化型评分。细致型评分以“信、达、切”为标准,以语义和形式两个对译文评判。语义评分考察“信”,评分员以“翻译单位”为单元,判断每个翻译单位译文的忠实度;形式评分衡量“达”和“切”,评分员以句为单位,评价每句译文的语法性、地道性和风格切合度。评分共持续约240小时。
次评分费时费力,不适应大规模考试的效率要求。评分结束一年后,本探讨简化型评分,仅对有区分度的评分点语义评价。评分点由国内两位翻译探讨专家确定,三篇原文中各有33、3

5、28个评分点,占形符数的1/7、1/8、1/9左右。这次评分约耗时32个小时。

表1,在三组语料的细致型评分中,三名评分员对篇章译文语义评分的系数均值都在0.89,alpha系数在0.95;形式评分的系数均值在0.85,alpha系数在0.94,三名评分员具有良好的一致性。在简化型评分中,评分员的系数和alpha系数也满意。
次评分对译文的语义了穷尽性评价,次评分大大简化,其性取决于它与次语义评分的。统计,三组语料中两次语义平均评分之间的度达到0.924、0.932和0.963,基于评分点的评分策略论文范文效果良好,也以往对评分法的二维划分,即整体评分法(holistic Seoring)和浅析评分法(analytic scoring)过于简单。整体评分法只评出整体印象分数,而浅析评分法对技能的不同组成单独评分。已有探讨,浅析评分法的信度高于整体评分法,费时、花费高(Weigle,2002:121)。不过,浅析评分法可能有不同的“度”,比如本探讨细致型和简化型评
1[3]

分;,简化型浅析评分法信度可靠,还具有较高的评分效率,这与前人的不同,也为大规模翻译测试中基于评分点的浅析评分法了有力的效度证据。
运用多面Rasch模型对人工评分了浅析。结果,各评分员的评分出现趋中性;不过,三名评分员的严厉度具有差别,考试中出现的情况。本探讨权且三名评分员的平均分,降低了评分员差别对评分结果的影响。

2.3.3 特点提取

本探讨提取了N元组匹配数量、词对齐数量等语义特点。①N元组匹配数量以最佳译文集为参照,检索最佳一到四元组在学生译文中出现的频率。N元组是以词为单位的线性序列,对译文内容了最大限度的。不过,它不是完整的语义单位,考虑语境因素。②词对齐数量以英汉词典为基准,同义词词林扩展版对词典译文补充,并考虑了一对多、多对一、多对多等匹配情况,对学生译文中译对的词语统计。该变量衡量译文的漏译、误译等情况。③评分点对齐数量模拟大型考试阅卷中按采分点给分的策略论文范文,将评分点的专家译文和其他正确译文制成词典,在学生译文中匹配,对译文质量的区分陛较强。④语义度的计算潜语义浅析法,衡量学生译文与最佳译文集的近似。这些变量各长,与译文分数的变量将质量预测因子,模型构建。
3 结果与讨论
本探讨的建模策略论文范文是,以简化型人工评分为因变量、与该分数的文本特点为自变量,多元线性回归浅析。模型的确立反复尝试、不断修正,评价模型优劣的标准有三个:,模型的自变量间系数不超过0.8,以免出现共线性(collinearity)。共线性指回归方程中两个或多个自变量,自变量解释的方差上由其他多个自变量解释(Ryan,2009)。,模型的决定系数R2达到最大、共线性数据最。考察共线性的统计标准有容忍度、方差膨胀因子和条件指数(秦晓晴,2003)。,自变量的系数正负性与它和因变量的情况同向。不同向,该变量为“负抑制变量”(negative suppressor),与共线性理由联系在一起(Ryan,2009)。
表2所列是经过反复优化的模型,共线性数据都在可接受的范围内,自变量的系数也与它和因变量的性一致。限于篇幅,这些数据暂不呈现。
表2,在三组语料中,五种训練集所构建模型的系数都在0.8,模型变量较好地解释译文的成绩。在文语料中,训練集为50篇译文时,模型的系数最高;训練集文本逐渐增加,模型的系数整体上呈下降走势。不过,训練集译文越少,模型受译文的影响越大,越不稳定,断定50篇译文大规模评分的。在记叙文语料中,训練集为100篇时,模型的系数最高;训練集减少或增加时,模型的系数变化很小。在叙议混合文语料中,训練集为50篇时,模型的系数达到0.965;训練集增加至100篇时,系数降至0.935;训練集增加时,模型的系数差别很小。,仅拟合数据确定最佳的训練集译文数量,比较模型的评分效果。

本探讨将验证的语义变量代人相应训練集所构建的回归方程,验证集译文的机器评分。然后,计算机器评分与人工评分的度和alpha系数,结果见表3。
表3,在三组语料中,不同模型的预测分数与人工评分的系数和alpha值都在0.8,模型都能预测验证集译文的成绩。在文语料中,训練集为50~150篇译文时,验证集人机评分的度逐渐上升;训練集为150篇时,度达到0.862。表2,模型解释的训練集分数方差与模型在验证的体现并不同步。训練集越少,模型对训練集分数的预测作用越强,而稳定性也越差,对验证集分数的预测性越低。,训練集达到的数量,才能保证模型的性。在记叙文语料中,训練集为180篇时,验证集人机评分的度最高,达到0.895。不过,五种模型中人机评分的度差别很小。同样,在叙议混合文语料中,训練集为180篇时,验证集人机评分的度高达0.942。
上述结果优于已有的口语自动评分探讨(人机评分的度在0.5-0.7之间),但略低于汉译英自动评分模型(王金铨,2008)。在王金铨的探讨中,训練集为50、100、150篇时,验证集人机评分的系数为0.870、0.878和0.897,比表3的结果约高出0.03。本探讨的为汉语译文,而汉语为意合语言,自动评分如此结果已属不易。与已有的英译汉自动评分探讨相比(人机评分的度为0.75)(王立欣,2007),本评分模型的效果更好。
本探讨配对样本t检验考察了人机评分的差别性,结果如表4:在文语料中,训練集为50和100篇译文时,验证集人机评分的差别均值为1.085和1.288,且具有作用毕业论文。当训練集增至130篇时,人机评分的差别均值降至0.471,统计作用毕业论文。训練集继续增加时,人机评分的差别均值降低,统计作用毕业论文更不。,130篇训練集译文机器评分的。
在记叙文语料中,模型的人机评分差别均值都在0.1左右,都作用毕业论文。,训練集为130篇时,人机评分的差别均值最小(-0.051)。
在叙议混合文语料中,训練集为50、130和150篇译文时,验证集人机评分的差别都具有作用毕业论文。训練集为100篇时,差别均值降至0.481,作用毕业论文。训練集增至180篇时,差别均值最小(0.165),此时人机评分最为接近。不过,考虑成本因素,100篇训練集译文已能评分。
综上所述,130篇训練集译文对180篇文译文和190篇记叙文译文机器评分的;100篇训練集译文即可200篇叙议混合文译文的机器评分。后者的训練集更少,可能原文的区分度更,且人工评分的信度最高(见表1)。不过这一在大规模语料中检验。确定的评分模型如表5。
表5,在三组语料中,评分点对齐数量和一元组匹配数量始终是译文成绩的预测因子。并且,评分点对齐数量在三个方程标准化系数都最大(为0.549、0.679、0.564,限于篇幅,数据暂未呈现),对译文语义质量的预测力最强。评分点的内核是翻译单位的简化。译者通常以作用毕业论文出发,将多个词组成的片段整体来考虑(Teubert,2002:189-214),翻译单位句法规则、具有完整作用毕业论文的多词单位,拟合该操作,并且较好地考虑了语序、上下文等因素,比较全面地衡量译文
2[3]

质量。不过,对齐翻译单位所的译文词典专业人员的大量工作才能,而评分点是具有区分度的词或短语,语言单位较小,数量也远远少于翻译单位,人工介入大大减少。表5,评分点对齐数量对英译汉具有显著的预测效果。
数据,一元组匹配数量在三个方程标准化系数为0.279、0.271和0.265(限于篇幅,数据暂未呈现),贡献仅次于评分点对齐数量。二元组匹配数量也在叙议混合文译文的评分方程内出现,标准化系数为0.215。该结果证实了N元组匹配法对译文质量的预测作用。Papineni等人(2002:313),与译文一元组相同的待测译文忠实度标准;二元和多元组则衡量译文的流利度。N元组匹配法简单易行,且具有区分译文的显著效果。一、二元组匹配数量考察学生译文中一两个字或词与译文相同的情况,与具有区分度的评分点对齐数量互为补充,在本探讨中了良好的效果。
语义度在文译文的评分方程内出现,标准化系数为0.146,对译文质量也产生了的预测力。该指标是潜语义浅析的、学生译文与最佳译文集的度。潜语义浅析消除文本噪音,降维揭示文本内潜藏的语义空间,在已有的作文自动评分系统(梁茂成,2005)和汉译英评分系统(王金铨,2008)中都起着作用。本探讨的评价为汉语文本,语义度的作用仍然比较显著。
词对齐数量在记叙文译文的评分方程内出现。已有的英译汉自动评分探讨了基于词典的词对齐,词对齐数量与译文成绩的系数约为0.6**(王立欣,2007)。缺乏大量高质量的双语对齐语料,本探讨也了基于词典的词对齐。不过,的词对齐更全面地考虑了多种英、汉语对齐情况,了较好的预测效果。
比较,三种文体译文评分方程内的变量并不完全相同,文译文的评分模型内出现了语义度,记叙文译文的评分方程内有词对齐数量,而叙议混合文译文的评分模型内有二元组匹配数量。探讨者对三种文体的原文和译文了细致深入的比较,暂未系统性的理由。的初步是,本探讨的变量对译文质量都具有较强的预测力,但不同文体、题目的译文在内容和语言上有着差别,这些变量可能会产生不同的交互效果。该探讨。
4 
本探讨多个领域的知识,创建了适用于大规模测试的学生英译汉机器评分模型。探讨结果,文、记叙文、叙议混合文译文所构建的评分模型都体现良好。以人工评分的效率上看,简化型人工评分节省了约五分之四的评分时间,且与细致型人工评分的度和一致性很高,以评分点为评判的策略论文范文、可行。以评分模型的效果上看,以50、100、130、150、180篇训練集译文构建的评分模型都能较好地预测译文成绩,,文和记叙文译文中130篇训練集、叙议混合文译文中100篇训練集所构建模型的预测分数与人工评分非常接近,选择此类数量的训練集节约成本,还能大规模测试的自动评分。
不过,本探讨也具有的之处。,使用大规模语料,检验130和100篇训練集数量能否在其他文体、题目、数量的译文中产生同样效果。,某些特点并不完美。,对齐评分点所的词典并未穷尽正确译文,区分度较高和较低的评分点也区别。再次,自动评分模型评判少数创造性译文。本探讨在这做出了努力,提取变量时上以30篇最佳译文为参照,不过这些译文涵盖创造性翻译,,在人机评分差别时,避开地人工干预。另外,文体与模型之间的联系探讨。

3

相关文章
推荐阅读

 发表评论

共有3000条评论 快来参与吧~