试议语音语音多模态研究与多模态二语语音习得

更新时间：2024-01-23 点赞:5354 浏览:13922 作者：用户投稿原创标记本站原创

摘要：目前多模态二语语音习得是热门研究话题，但已有相关研究多聚焦于语音软件声学分析在二语语音习得中的应用，二语语音习得的多模态系统研究缺乏。本文在整合语音多模态相关研究的基础上，依据语言学、语音学、语音声学、语音生理学相关理论，尝试构建基于生理仪器测量、基于语音合成的发音过程三维动画和基于语音软件声学分析的多模态二语语音习得研究框架，旨在丰富二语语音习得研究方法和研究内容，有效促进二语语音习得。
关键词：多模态二语语音习得；生理仪器测量；语音合成；声学分析
1001-5795（2013）04-0059-0005
从发展轨迹来看，语音学经历了“口耳之学”的传统语音学和语音科学两个阶段，其分水岭是语音学研究中首次使用X光对发音器官、发音动作等进行实证研究。随着科学技术的快速发展，近二十年语音科学研究取得了重大进展，并呈现出多元化发展趋势。语音多模态研究也应运而生。随着二语语音习得研究的扩展和深入，语音多模态研究成果越来越多地被应用于二语语音习得中，多模态二语语音习得研究也日益成为人们关注的热点话题。
关于语音多模态研究在二语语音习得中的应用，国内学者进行了一些有益的尝试，主要是在二语语音习得和教学中引入语音声学软件分析。谢萍（2007）、马照谦（2007）、蒋红柳（2009）等探讨了如何使用Praat、Speech Analyser等语音分析软件实现可视化英语语音教学，如何通过提供视觉上的感知反馈和感知评判标准，使抽象的语音概念介绍和容易混淆的语音的区分变得直观形象，帮助学习者正确感知英语语音。庄木齐、卜友红（2011）介绍了商用超音段音位辅助习得软件Better Accent Tutor（超音段可视化分析软件）的性能及应用效果。这些研究有助于学习者了解语音软件及声学分析，并通过可视化教学进一步提高二语语音习得效率，但也有其局限性和不足：只是聚焦语音习得的单一模态，并且尚未构建一定的研究框架。这一问题若不能及时解决，二语语音习得研究还会流于表面，缺乏深度和系统性。针对这一不足，我们在整合语音多模态相关研究的基础上，依据语言学、语音学、生理语音学、声学语音学等理论，尝试构建一个针对中国学习者的多模态二语语音习得研究框架，以期促进多模态二语语音习得理论的发展，丰富二语语音多模态研究方法和研究内容，有效促进二语语音习得。
1 语音多模态研究与多模态二语语音习得
语音学是研究人类说话声音及言语过程的学科。现代语音学一般分为发声语音学（artieulatory phonet—ics）、声学语音学（acoustic phonetics）和听觉语音学（auditory phonetics）。发声语音学主要研究讲话人的语音产出，声学语音学主要研究讲话人与听话人之间的语音传递，听觉语音学主要研究听话人对语音的接受和感知。三者涉及言语交际过程中的发音、传递和感知三个阶段。正如图1言语链（The Speech Chain）所示，言语的产出与感知过程复杂，涉及语言学层面（linguistie level）、生理学层面（physiological level）和声学层面（acoustic level）发生的一系列现象。摘自：毕业论文标准格式www.618jyw.com
“模态”（modal）本是计算机科学中研究人机交互时使用的一个术语，指“人类通过感官（听觉、视觉等）跟外部环境（如人、机器、物件、动物等）之间的互动方式”（顾曰国，2007）。“多模态”指综合运用多种模态，通过文本、图像、视频、手势、三维动画等多种手段和符号载体进行交际的现象（Iedema，2003；O’Halloran，2011）。“语音多模态研究主要是指对某种语音进行语言学、语音学、语音声学和语音生理学的全方位研究”（孔江平，2008）。这一全方位研究基本涵盖言语过程中的发音、传递和感知三个阶段。因此，语音多模态研究对二语语音习得的多模态研究有着重要的借鉴意义。

1.1 多模态二语语音习得研究框架构建

基于语音多模态研究，我们尝试性构建不同层面（音段层面、超音段层面）的多模态二语语音习得研究框架（如图2所示）。
多模态二语语音习得研究可分为以下三大类：①基于生理仪器测量的多模态二语语音习得研究，包括动态声门研究、口鼻气流气压研究、动态腭位研究、唇形研究等，多用于研究辅音习得（因为辅音在语图上声学表现不明显）；②基于语音合成的发音过程三维动画的多模态二语语音习得研究，主要用于研究辅音和元音等音段的习得；③基于语音软件声学分析的多模态二语语音习得研究，主要用于研究超音段音位习得及元音习得。其中超音段音位可通过音高（pitch）、音强（intensity）等声学参数来反映；元音作为乐音有很好的声学表现，便于进行声学分析。前两类研究主要涉及音段层面，第三类研究主要关注超音段音位习得。这三类研究即构成了多模态二语语音习得的研究框架，主要涉及视觉（通过基于语音合成与语音识别技术开发的语音分析软件将语音的声谱图和声学参数展示出来）、听觉（听话人对语音的接受和感知等）、触觉（借助图像或动态画面调整发音方法和发音部位）等。下文将略述这一框架并探讨其在二语语音习得中的应用。

1.2 多模态二语语音习得研究框架在二语语音习得中的应用

1.2.1 基于生理仪器测量的多模态二语语音习得

（1）动态声门研究与二语语音习得
动态声门研究是利用国际上研究语言发声最先进和复杂的高速数字成像技术和语音信号处理技术，针对声带振动频率和振动方式所进行的研究，具体是利用高速摄像机拍下声带振动的全过程，然后利用语音信号处理技术提取出相关参数进行语音学研究或建立模型（孔江平，2007）。英语辅音习得中的一个关键问题是发某个辅音时如何确定声带是否振动，传统做法是把手放在喉部，如果感觉喉部颤动发麻，则说明声带振动了。利用这一方法只能对声带是否振动做出定性判断，却无法进行精确的定量分析。借助动态声门研究成果，根据相关参数计算出声带振动的方式和频率并以视觉的形式呈现给学习者，有助于克服传统方法带来的弊端，促进学习者辅音的习得。（2）口鼻气流气压研究与二语语音习得
目前学术界使用比较多的口鼻气流气压计是SCI—CON R&D公司的PCquirer系统，其主要测量参数有：口腔的气流量和气压级，鼻腔的气流量、气压级和基频等。这一仪器“除了用于腭裂、运动性言语障碍、听力障碍、腭修复、功能性的鼻音问题等嗓音病变和语音矫正外；还可以提取各种不同的参数用于言语产生的生理研究”（李永宏等，2008）。
中国学习者英语辅音习得过程中常见的两大问题是：发辅音时往往送气不足；爆破音发音要经历闭合（approach）、成阻（hold）和除阻（release）三个阶段，学习者常常不能恰当控制气息。发音时，来自肺部的气流通过支气管、气管到达咽腔，然后再由鼻腔或口腔释放出来。气流是发音的能量来源和原动力，其强弱直接影响发音效果。口鼻气流气压计则能精确测量通过口腔、鼻腔的气流量，避免仅凭感觉而造成的误差，对于解决英语辅音习得过程中的送气不足和气息控制等问题大有裨益。
（3）动态腭位研究与二语语音习得
言语产生（speech production）是言语链中最底端和基础的部分，也是语音学中最为重要的基础性内容。在言语产生研究中发音器官动作特性的研究举足轻重。动态腭位研究主要用于音段层面尤其是辅音的研究。电子腭位仪原为帮助腭裂儿童发音而设计，现也应用于二语语音教学和习得领域。目前，常见的动态腭位仪应用电子假腭以96点阵的方式（图3），实时记录舌与腭部的接触位置及面积，同步采集说话人的音频信号和动态腭位EPG信号，并在计算机语音声学分析软件界面上以图形的形式显示出来。学习者可以清楚地看到辅音的发音方法和发音部位（郑玉玲，2006），因而被称作“实时地看语言（seeing speech inreal time）（Fletch，1982）。借助动态腭位分析，学习者可实时调整自己的发音。
目前用于研究发音器官动作的仪器除了电子腭位仪外，电磁发音仪是另一行之有效的仪器，可用来实时观察发音器官的动作（李永宏等，2008）。
（4）唇形研究与二语语音习得
唇形研究与二语语音习得研究有着密切的关系。人脸的唇部是一个复杂的非刚体模型，其形变过程由分布在面部的肌肉组织的收缩以及人体下颌骨的运动来控制（郑放，1985）。通过专用设备“红外三维立体信号采集系统”可获取唇形的动态信息进行唇形研究，建立一个基于红外三维立体信号的英语发音唇形研究数据库，开发具有唇形视频功能的英语发音多模态教学系统，有效改进二语语音习得。

1.2.2 基于语音合成的发音过程三维动画的多模态二语语音习得

目前的语音合成（speech synthesis）技术在清晰度、自然度及体现个体语音、语调、情绪丰富性等方面取得了重大进展，可以提供大量标准发音的动态画面。三维动画是近年来随着计算机软硬件技术的发展而产生的一门新兴技源于：论文例文www.618jyw.com
术，具有精确性、真实性、无限可操作性等突出优点，被广泛应用于教育、医学、娱乐等领域。基于语音合成的发音过程三维动画技术可以直观、生动展示各个发音器官及其运动、发音方法的模拟并与声音同步，有助于学习者机动、便捷、有效地进行发音训练。例如，可提供元音和辅音发声过程的三维动画视频（图4）、发音过程的分解步骤（图5）以及真人发音三维动画视频（图6）（http：//ics/#）。

1.2.3 基于语音软件声学分析的多模态二语语音习得

语音软件声学分析主要用于二语语音超音段音位习得。由于受母语影响，中国学习者对英语语音的音响与韵律感知能力欠佳。解决问题的一个有效途径便是利用语音软件（Praat，Speech Analyzer，Eyespeak，WASP，Wesurfer，Betteraeeent Tutor等）声学分析得到包含相关语料声学参数的声谱图或语图，以视觉的形式呈现给学习者，使其在接受听觉刺激的同时，接受视觉、触觉等多种感官刺激，即进行多模态体验。声学分析软件可展示给学习者诸如音长（duration）、音高、音强、共振峰（formant）、脉冲（pulse）、嗓音起始时间（VOT）等相关信息。其中，音高主要反映发音时音量的高低；音高曲线可显示语调的走势；音强指的是发音时气流的强弱，音强曲线可以反映重音情况；共振峰指语图中能量相对集中的一些区域，声学分析中常用的有F0（基频）、F1（与开口度有关，开口越大F1越大）、F2（与舌位的前后有关，舌位越靠前F2越大）；脉冲主要用于区分清音和浊音，前者无脉冲，后者有脉冲；VOT是指“辅音与元音连接时发音器官交替活动，即除阻开始与声带振动开始的时间过程”（吴宗济、林茂灿，1989：119），清音的VOT长，浊音的VOT短。图7是语音习得软件Better Accent Tutor辅助语调、重音、节奏等超音段音位习得时的界面，学习者可以在该界面录音，然后对比分析与标准发音的差别，并根据得到的反馈信息修正自己的发音。
需要说明的是，语音软件声学分析的确能帮助改善学习者的语音习得效果，但也存在一定的误差。因此，不能完全依赖声学分析结果，有时候还需参考母语者的直觉和建议。
2 结语
本文在梳理整合语音多模态相关研究的基础上，依据语言学、语音声学、语音生理学等理论，基于言语链，以中国学习者的英语语音习得为研究对象，尝试性提出了基于生理仪器测量、基于语音合成的发音过程三维动画、基于语音软件声学分析的多模态二语语音习得研究思路和框架。生理仪器测量可精确计算出学习者音段音位习得相关参数，并以可视化的方式呈现给学习者，有助于克服传统的仅凭借经验与感觉的弊端；三维动画技术可动态展示发音过程中发音器官的运动及特点，有助于学习者同步模仿相关发音动作，便捷修正错误发音；语音软件声学分析能够客观展现音长、音高、音强等与语音感知密切相关的声学参数，有助于学习者找出语音感知偏差，改进自身的语音感知能力。总之，该框架聚焦二语音段音位与超音段音位的习得，关注言语过程中语言层面、生理层面和声学层面的分析，有助于实现二语语音习得过程中听觉、视觉、触觉等感官的协同感知，使语音习得变得更直观、更科学、更具趣味性。更重要的是，它对实现二语语音研究由质性研究向质性研究与量化研究有机结合的转变及二语语音习得的多模态化都大有帮助。
由于技术水平有限、交叉学科人才紧缺、相关高端设备昂贵等原因，目前国内多模态二语语音习得研究才刚刚起步。构建多模态视角下的二语语音习得框架有助于开拓二语语音习得研究视野，推动二语语音习得研究在语音科学日新月异的当下向多模态化、科学化迈进。当然，这一框架尚有缺陷，有待在实践中进一步完善。