评分,译文译文,评分译文,评分,大规模测试中学生英译汉机器评分模型构建

更新时间：2024-04-13 点赞:24441 浏览:101593 作者：用户投稿原创标记本站原创

：旨在研制、可靠的英译汉学生译文机器评分系统，大规模测试的自动评分。本探讨三种文体的译文，构建了五种比例训練集的评分模型，模型预测分值与人工评分的系数均高于0.8。并且，当训練集为130篇时，模型对文和记叙文译文的预测分值与人工评分非常接近；当训練集为100篇时，模型对叙议混合文译文的评分与人工评分最为接近。探讨结果，提取的变量预测力较强，不同文体构建的评分模型效果良好，比较准确地预测学生的英译汉成绩。
词：大规模测试；英译汉；机器评分
中图分类号：H319.3　文献标识码：A　文章编号：1001-5795(2012)02-0003-0006
1　探讨背景
主观题的自动评分是测试领域的焦点。英语作文的自动评分探讨已经比较成熟，国外已开发出多个评分系统，并运用于GRE、GMAT等大型考试中。在国内，梁茂成(2005)研制了适合英语学习者的作文自动评分系统，了良好的效果。极少数人也对汉语作文的自动评分了探讨，潜语义浅析的机器评分比较接近人工评分。
在翻译领域，自动评分探讨局限于机器翻译评价。少数探讨者也对学生译文的自动评分了尝试(王金铨，2008)。该探讨构建了诊断性和选拔性评分模型，前者对译文的语义、形式质量细致评分并反馈，后者大规模测试评分。不过，该探讨的文体仅限于记叙文。在英译汉自动评分，王立欣(2007)挖掘了词对齐数量等文本特点，10折交叉检验法来验证模型，具有的优势。不过，该探讨所用语料为广告类段落，人工评分比较粗略，变量也上停留在词汇层面。
在前人探讨的上，拟研制稳定可靠的、适用于学生大规模英译汉测试的机器评分模型。其策略论文范文是：语料库语言学、自然语言处理、信息检索等领域的技术，提取与译文质量的多种文本特点，并对文本特点和人工评分多元回归浅析，构建机器评分模型，回归方程计算同一题目的其他译文的分数，并浅析机器评分与人工评分的。本探讨在人工评分、特点提取、语料类别与已有探讨不同。，人工语义评分以原文的“翻译单位”为单元，翻译单位是搭配规则、作用毕业论文单一、完整的多词单位，于评价译文的语义正误、语法性、连惯性等特点。人工形式评分增加了“风格切合度”标准，英译汉的目的语是学生的母语，译文的语言形式更高的评价标准。，本探讨提取了翻译单位对齐数量等一批新的文本特点。再次，对三种文体的译文建模。不同文体的语篇在内容、语言、风格上都具有差别。本探讨使用的文结构清晰，措辞规范、严谨，句子结构复杂；记叙文运用了比喻、排比等修辞手法，语言流畅，情态，抒彩浓厚；叙议混合文则兼有记叙文和议论文的特点。本探讨探讨了对三种文体的译文质量都具有预测力的变量，有助于提高变量的推广性。
2　探讨设计

2.1　探讨理由

本探讨拟解决理由：
(1)三种文体内，不同训練集数量构建的选拔性评分模型有多大预测力?所预测分数的信度如何?
(2)多少训練集译文大规模测试中英译汉机器评分的?
(3)三种文体的评分模型内，相同特点和不同特点有哪些?为?

2.2　探讨工具

本探讨使用了大量文本浅析和数据浅析工具：
(1)文本预处理工具，为自编的perl程序，用于对文本不规则输入整理，并对文本随机编号、句子整合。
(2)文本浅析工具，用于提取与译文语义质量的文本特点，R软件和perl程序。R是一款统计浅析软件，本探讨使用自编的R程序潜语义浅析，它奇异值分解来压缩词语一文本矩阵，构建潜藏的文本语义空间。探讨者还使用perl程序提取一到四元组匹配数量、评分点对齐数量等文本特点。这些特点的参照是最佳译文集，30篇专家译文和优秀学生译文，待测译文与该集合越接近，译文质量越高。
(3)数据浅析工具，是SPSS，用于计算文本特点与分数的度，回归浅析构建评分模型，验证模型的性。

2.3　探讨

本探讨可分为五个阶段：语料、人工评分、特点提取、模型构建、模型验证，前三个是建模前的准备阶段，下面。

2.3.1　语料

本探讨使用了三组语料，一篇文、记叙文、叙议混合文的汉语译文各300多篇，是国内三所不同高校英语专业三、四年级学生的限时翻译测试译文(60分钟)。三篇原文各约300个词，句意可分为15、15、13个句子。在语料时，呈现语篇，便于学生以整体上把握原文；接着呈现单句，要求学生在各单句下面写出译文，便于整理。

2.3.2　人工评分

在自动评分探讨中，高信度的人工评分是保证机器评分、可靠的。本探讨组织三名有经验的评分员先后细致型和简化型评分。细致型评分以“信、达、切”为标准，以语义和形式两个对译文评判。语义评分考察“信”，评分员以“翻译单位”为单元，判断每个翻译单位译文的忠实度；形式评分衡量“达”和“切”，评分员以句为单位，评价每句译文的语法性、地道性和风格切合度。评分共持续约240小时。
次评分费时费力，不适应大规模考试的效率要求。评分结束一年后，本探讨简化型评分，仅对有区分度的评分点语义评价。评分点由国内两位翻译探讨专家确定，三篇原文中各有33、3

5、28个评分点，占形符数的1/7、1/8、1/9左右。这次评分约耗时32个小时。

表1，在三组语料的细致型评分中，三名评分员对篇章译文语义评分的系数均值都在0.89，alpha系数在0.95；形式评分的系数均值在0.85，alpha系数在0.94，三名评分员具有良好的一致性。在简化型评分中，评分员的系数和alpha系数也满意。
次评分对译文的语义了穷尽性评价，次评分大大简化，其性取决于它与次语义评分的。统计，三组语料中两次语义平均评分之间的度达到0.924、0.932和0.963，基于评分点的评分策略论文范文效果良好，也以往对评分法的二维划分，即整体评分法(holistic Seoring)和浅析评分法(analytic scoring)过于简单。整体评分法只评出整体印象分数，而浅析评分法对技能的不同组成单独评分。已有探讨，浅析评分法的信度高于整体评分法，费时、花费高(Weigle，2002：121)。不过，浅析评分法可能有不同的“度”，比如本探讨细致型和简化型评
1[3]

分；，简化型浅析评分法信度可靠，还具有较高的评分效率，这与前人的不同，也为大规模翻译测试中基于评分点的浅析评分法了有力的效度证据。
运用多面Rasch模型对人工评分了浅析。结果，各评分员的评分出现趋中性；不过，三名评分员的严厉度具有差别，考试中出现的情况。本探讨权且三名评分员的平均分，降低了评分员差别对评分结果的影响。

2.3.3　特点提取

本探讨提取了N元组匹配数量、词对齐数量等语义特点。①N元组匹配数量以最佳译文集为参照，检索最佳一到四元组在学生译文中出现的频率。N元组是以词为单位的线性序列，对译文内容了最大限度的。不过，它不是完整的语义单位，考虑语境因素。②词对齐数量以英汉词典为基准，同义词词林扩展版对词典译文补充，并考虑了一对多、多对一、多对多等匹配情况，对学生译文中译对的词语统计。该变量衡量译文的漏译、误译等情况。③评分点对齐数量模拟大型考试阅卷中按采分点给分的策略论文范文，将评分点的专家译文和其他正确译文制成词典，在学生译文中匹配，对译文质量的区分陛较强。④语义度的计算潜语义浅析法，衡量学生译文与最佳译文集的近似。这些变量各长，与译文分数的变量将质量预测因子，模型构建。
3　结果与讨论
本探讨的建模策略论文范文是，以简化型人工评分为因变量、与该分数的文本特点为自变量，多元线性回归浅析。模型的确立反复尝试、不断修正，评价模型优劣的标准有三个：，模型的自变量间系数不超过0.8，以免出现共线性(collinearity)。共线性指回归方程中两个或多个自变量，自变量解释的方差上由其他多个自变量解释(Ryan，2009)。，模型的决定系数R2达到最大、共线性数据最。考察共线性的统计标准有容忍度、方差膨胀因子和条件指数(秦晓晴，2003)。，自变量的系数正负性与它和因变量的情况同向。不同向，该变量为“负抑制变量”(negative suppressor)，与共线性理由联系在一起(Ryan，2009)。
表2所列是经过反复优化的模型，共线性数据都在可接受的范围内，自变量的系数也与它和因变量的性一致。限于篇幅，这些数据暂不呈现。
表2，在三组语料中，五种训練集所构建模型的系数都在0.8，模型变量较好地解释译文的成绩。在文语料中，训練集为50篇译文时，模型的系数最高；训練集文本逐渐增加，模型的系数整体上呈下降走势。不过，训練集译文越少，模型受译文的影响越大，越不稳定，断定50篇译文大规模评分的。在记叙文语料中，训練集为100篇时，模型的系数最高；训練集减少或增加时，模型的系数变化很小。在叙议混合文语料中，训練集为50篇时，模型的系数达到0.965；训練集增加至100篇时，系数降至0.935；训練集增加时，模型的系数差别很小。，仅拟合数据确定最佳的训練集译文数量，比较模型的评分效果。
，
本探讨将验证的语义变量代人相应训練集所构建的回归方程，验证集译文的机器评分。然后，计算机器评分与人工评分的度和alpha系数，结果见表3。
表3，在三组语料中，不同模型的预测分数与人工评分的系数和alpha值都在0.8，模型都能预测验证集译文的成绩。在文语料中，训練集为50～150篇译文时，验证集人机评分的度逐渐上升；训練集为150篇时，度达到0.862。表2，模型解释的训練集分数方差与模型在验证的体现并不同步。训練集越少，模型对训練集分数的预测作用越强，而稳定性也越差，对验证集分数的预测性越低。，训練集达到的数量，才能保证模型的性。在记叙文语料中，训練集为180篇时，验证集人机评分的度最高，达到0.895。不过，五种模型中人机评分的度差别很小。同样，在叙议混合文语料中，训練集为180篇时，验证集人机评分的度高达0.942。
上述结果优于已有的口语自动评分探讨(人机评分的度在0.5－0.7之间)，但略低于汉译英自动评分模型(王金铨，2008)。在王金铨的探讨中，训練集为50、100、150篇时，验证集人机评分的系数为0.870、0.878和0.897，比表3的结果约高出0.03。本探讨的为汉语译文，而汉语为意合语言，自动评分如此结果已属不易。与已有的英译汉自动评分探讨相比(人机评分的度为0.75)(王立欣，2007)，本评分模型的效果更好。
本探讨配对样本t检验考察了人机评分的差别性，结果如表4：在文语料中，训練集为50和100篇译文时，验证集人机评分的差别均值为1.085和1.288，且具有作用毕业论文。当训練集增至130篇时，人机评分的差别均值降至0.471，统计作用毕业论文。训練集继续增加时，人机评分的差别均值降低，统计作用毕业论文更不。，130篇训練集译文机器评分的。
在记叙文语料中，模型的人机评分差别均值都在0.1左右，都作用毕业论文。，训練集为130篇时，人机评分的差别均值最小(－0.051)。
在叙议混合文语料中，训練集为50、130和150篇译文时，验证集人机评分的差别都具有作用毕业论文。训練集为100篇时，差别均值降至0.481，作用毕业论文。训練集增至180篇时，差别均值最小(0.165)，此时人机评分最为接近。不过，考虑成本因素，100篇训練集译文已能评分。
综上所述，130篇训練集译文对180篇文译文和190篇记叙文译文机器评分的；100篇训練集译文即可200篇叙议混合文译文的机器评分。后者的训練集更少，可能原文的区分度更，且人工评分的信度最高(见表1)。不过这一在大规模语料中检验。确定的评分模型如表5。
表5，在三组语料中，评分点对齐数量和一元组匹配数量始终是译文成绩的预测因子。并且，评分点对齐数量在三个方程标准化系数都最大(为0.549、0.679、0.564，限于篇幅，数据暂未呈现)，对译文语义质量的预测力最强。评分点的内核是翻译单位的简化。译者通常以作用毕业论文出发，将多个词组成的片段整体来考虑(Teubert，2002：189－214)，翻译单位句法规则、具有完整作用毕业论文的多词单位，拟合该操作，并且较好地考虑了语序、上下文等因素，比较全面地衡量译文
2[3]

质量。不过，对齐翻译单位所的译文词典专业人员的大量工作才能，而评分点是具有区分度的词或短语，语言单位较小，数量也远远少于翻译单位，人工介入大大减少。表5，评分点对齐数量对英译汉具有显著的预测效果。
数据，一元组匹配数量在三个方程标准化系数为0.279、0.271和0.265(限于篇幅，数据暂未呈现)，贡献仅次于评分点对齐数量。二元组匹配数量也在叙议混合文译文的评分方程内出现，标准化系数为0.215。该结果证实了N元组匹配法对译文质量的预测作用。Papineni等人(2002：313)，与译文一元组相同的待测译文忠实度标准；二元和多元组则衡量译文的流利度。N元组匹配法简单易行，且具有区分译文的显著效果。一、二元组匹配数量考察学生译文中一两个字或词与译文相同的情况，与具有区分度的评分点对齐数量互为补充，在本探讨中了良好的效果。
语义度在文译文的评分方程内出现，标准化系数为0.146，对译文质量也产生了的预测力。该指标是潜语义浅析的、学生译文与最佳译文集的度。潜语义浅析消除文本噪音，降维揭示文本内潜藏的语义空间，在已有的作文自动评分系统(梁茂成，2005)和汉译英评分系统(王金铨，2008)中都起着作用。本探讨的评价为汉语文本，语义度的作用仍然比较显著。
词对齐数量在记叙文译文的评分方程内出现。已有的英译汉自动评分探讨了基于词典的词对齐，词对齐数量与译文成绩的系数约为0.6**(王立欣，2007)。缺乏大量高质量的双语对齐语料，本探讨也了基于词典的词对齐。不过，的词对齐更全面地考虑了多种英、汉语对齐情况，了较好的预测效果。
比较，三种文体译文评分方程内的变量并不完全相同，文译文的评分模型内出现了语义度，记叙文译文的评分方程内有词对齐数量，而叙议混合文译文的评分模型内有二元组匹配数量。探讨者对三种文体的原文和译文了细致深入的比较，暂未系统性的理由。的初步是，本探讨的变量对译文质量都具有较强的预测力，但不同文体、题目的译文在内容和语言上有着差别，这些变量可能会产生不同的交互效果。该探讨。
4　
本探讨多个领域的知识，创建了适用于大规模测试的学生英译汉机器评分模型。探讨结果，文、记叙文、叙议混合文译文所构建的评分模型都体现良好。以人工评分的效率上看，简化型人工评分节省了约五分之四的评分时间，且与细致型人工评分的度和一致性很高，以评分点为评判的策略论文范文、可行。以评分模型的效果上看，以50、100、130、150、180篇训練集译文构建的评分模型都能较好地预测译文成绩，，文和记叙文译文中130篇训練集、叙议混合文译文中100篇训練集所构建模型的预测分数与人工评分非常接近，选择此类数量的训練集节约成本，还能大规模测试的自动评分。
不过，本探讨也具有的之处。，使用大规模语料，检验130和100篇训練集数量能否在其他文体、题目、数量的译文中产生同样效果。，某些特点并不完美。，对齐评分点所的词典并未穷尽正确译文，区分度较高和较低的评分点也区别。再次，自动评分模型评判少数创造性译文。本探讨在这做出了努力，提取变量时上以30篇最佳译文为参照，不过这些译文涵盖创造性翻译，，在人机评分差别时，避开地人工干预。另外，文体与模型之间的联系探讨。

3

评分,译文译文,评分译文,评分,大规模测试中学生英译汉机器评分模型构建

2.1 探讨理由

2.2 探讨工具

2.3 探讨

2.3.1 语料

2.3.2 人工评分