基于内容音频检索技术探讨

更新时间：2024-04-15 点赞:25840 浏览:119515 作者：用户投稿原创标记本站原创

近年随着多媒体数据成指数级的增长,对于多媒体信息的检索就变得越来越迫切。音频检索技术在相当多的领域都具有极大的应用价值,例如远程教学,卫生医疗,数字图书馆,环境监测,新闻节目检索和娱乐节目的编辑和制作等。本文围绕音频检索的两个分支语音检索和音乐检索进行了探索性的研究。主要工作可以归纳为以下三个部分。基于音节混淆网络的STD检索。利用语音识别技术将广播语音文件转换为混淆网络格式的文本,利用文本检索的相关技术,查询输入的关键词,返回对应的语音文件及其时间信息。通过实验,分析了不同剪枝策略对于系统性能的影响。MIDI音乐的哼唱检索。分析MIDI格式的音频,提取音频中的旋律信息。利用基频提取算法对哼唱查询片断进行旋律提取,并与数据库中音频的旋律进行相似度计算,按相似度高低返回查询结果。通过实验,分析了不同匹配算法对于系统性能的影响。基于声纹的样例检索。采用图形学的相关算法,对查询样例的语谱图提取特征点,利用Hash结构进行特征点匹配,返回相似音频。通过实验,分析了不同的索引结构以及特征提取算法对系统性能的影响。最后,对全文进行总结,并对基于内容的音频检索的远景|教学论文范文|进行了展望。【关键词】：混淆网络STDQBSH声纹
【论文提纲】：摘要4-5ABSTRACT5-10第1章引言10-151.1研究问题的提出10-121.2基于内容的音频检索研究现状12-131.3本论文主要研究的问题和论文结构13-15第2章音频检索技术综述15-202.1音频检索研究背景152.2音频检索分类15-202.2.1音频检索的对象15-162.2.2音频的特征层次16-172.2.3音频检索的查询形式172.2.4音频的检索方式17-20第3章基于语音技术的检索20-463.1语音检索概述20-213.1.1语音检索研究现状203.1.2语音检索技术框架20-213.2连续语音识别的基本原理21-323.2.1预处理与特征提取23-243.2.2声学模型24-263.2.3语言模型26-273.2.427-313.2.5语音识别的输出31-323.3语音检索的基本原理32-383.3.1混淆网络32-363.3.2STD技术研究简介36-383.4一个基于音节混淆网络的STD系统38-463.4.1系统设计方案38-413.4.2实验结果与分析41-46第4章基于哼唱的音乐检索46-594.1哼唱音乐检索概述46-484.2音乐特点48-524.2.1音乐乐理48-504.2.2音乐存储格式50-524.3旋律提取52-544.3.1基音提取算法52-544.3.2基音检测的后处理544.4旋律匹配54-564.4.1动态时间伸缩(DynamicTimeWarping)55-564.4.2线性缩放(LinearScaling)算法564.5哼唱检索系统实现56-594.5.1系统设计方案574.5.2实验结果与分析57-59第5章基于样例的音频检索59-715.1样例检索概述59-615.2声纹特征提取61-635.3声纹检索算法63-665.3.1索引的建立63-655.3.2检索过程65-665.4声纹检索系统实现66-695.4.1声纹提取算法的改进67-695.4.2检索算法的改进695.5实验结果及分析69-715.5.1实验数据695.5.2实验指标69-705.5.3特征提取实验705.5.4检索性能实验70-71第6章总结与展望71-74参考文献74-80致谢80-82攻读学位期间发表的学术论文目录82