# 毕业设计 **Repository Path**: linyunhe/GraduationProject ## Basic Information - **Project Name**: 毕业设计 - **Description**: 关键词语音识别应用研究 - **Primary Language**: Python - **License**: EPL-1.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 0 - **Created**: 2022-01-01 - **Last Updated**: 2022-05-13 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 任务书 ## 题目 关键词语音识别应用研究 ## 论文写作要求 ### 1. 目标 以往届毕设课题组员对关键词识别问题的研究成果为基础,改进各项实施细节,增强关键词语音识别系统,针对背景噪声和语速变化等的实用性和鲁棒性,并尝试实现完整语句中的关键词语音检索。 ### 2. 思路与方法 研读参考文献,搭建关键词识别系统,增强系统的识别能力,之后加入完整语句中的关键词检索功能。 ### 3. 进度安排 2021年12月27日-2022年1月6日:开题;资料文献搜索 2022年1月7日-2022年1月15日:资料文献搜索;编写基础程序 2022年1月16日-2022年2月15日:系统基本搭建完成,测试与调整 2022年2月16日-2022年3月15日:完善系统;初稿 2022年3月16日-2022年4月25日:定稿;结题 ## 支持条件 + 往届毕设课题组员采集的语料。 ## 文献阅读要求 > + 俞锦祺. 小词汇量的关键词语音识别研究[D]. 厦门:厦门大学, 2021. > + 吴迪. 基于传统机器学习的关键词语音识别[D]. 厦门:厦门大学, 2021 > + 汤志远, 李蓝天, 王东, 等. 语音识别基本法:Kaldi实践与探索[M]. 北京:电子工业出版社, 2021. > + 姜囡. 语音信号识别技术与实践[M]. 沈阳:东北大学出版社, 2019 > + 白烨. 语音关键词检测方法综述[R]. 北京:人工智能前沿学生论坛, 2019 # 开题报告 ## 题目 关键词语音识别应用研究 ## 研究目标 以往届毕设课题组员对关键词识别问题的研究成果为基础,改进实施细节,增加必要环节,增强关键词语音识别系统的实用性和鲁棒性,进一步地实现整个语句中的关键词语音检索。具体包括: ### 1. 增强环境鲁棒性 研究如何克服背景噪声(如白噪声、人群噪声、背景音乐噪声等)干扰,提升嘈杂环境下的识别效果。 ### 2. 支持不同语速 研究如何实现对以不同语速(慢速、中速、快速)念出的关键词的辨识。 ### 3. 整个语句中的关键词识别 探索如何对完整语句中可能出现的关键词进行识别。编写出程序,为原有系统增加该环节。 ## 研究思路 ### 1. 进行语音识别领域特别是关键词语音识别领域的入门学习 阅读综述、专著、论文、网络文章等各类有关参考资料,学习语音识别基本流程,明确有关概念和术语,了解各类技术方法。 ### 2. 对往届毕设课题组员的研究成果进行吸收内化 仔细阅读毕设论文,明确其研究使用的方法,学习其研究采取的步骤,充分利用其研究的成果和结论。 同时,也要特别留意其相对欠缺之处,注意扬长避短。 ### 3. 在编程和测试中搭建和完善孤立关键词识别系统 独立自主地编写实验程序,按环节地搭建起完整的关键词识别系统。通过测试实验,不断对程序进行迭代、对系统进行改进。 其中,要注重对识别系统鲁棒性的要求。 ### 4. 搭建完整语句中关键词识别系统 在基本目标完成的前提下,积极探索高级功能的实现,即检出在完整语句中可能出现的关键词。 编写出程序,为原有系统增加该环节。需要注意,在加入此高级功能后,基本功能即孤立关键词识别不应被影响。 ## 研究方法 搭建基于模板匹配与嵌入学习的关键词识别系统。使用嵌入学习的LSTM(Long short-term memory,长短期记忆)算法,对语料进行特征提取。运用模板匹配思想,识别集外词。使用RF(Random Forest,随机森林)算法,对语料进行分类,从而识别关键词。使用滑动窗口方法,对语音流中可能出现的关键词进行识别。 ### 1. 进行预处理和VAD(Voice Activity Detection,端点检测) 对待识别语料与模板,先进行预处理,再用改进的双门限法进行VAD,切除非语音区域。需特别注重这些环节的鲁棒性。 ### 2. 提取语料的MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱系数) 每帧语料的MFCC维数是固定的,但不同时长的语料的帧数不同,故不同时长的语料的MFCC总维数不同。 ### 3. 构造固定维数特征向量 使用LSTM算法进行嵌入学习,从任意维数的MFCC特征中提取出固定维数的特征向量。 所有模板的特征向量要求事先计算完毕。待识别语料的特征向量在输入系统后计算得到。 采用某种向量距离定义,可得待识别语料与所有模板的特征向量之间的距离。 ### 4. 运用模板匹配思想分离集外词 若待识别语料为集外词,则其与模板语料之间的特征向量的距离较大,因此,设置某阈值,当距离超过阈值时,判断为集外词,不送入分类器。 ### 5. 使用RF算法进行分类 RF具有低方差特性,适合小样本训练集,也具备训练快速、调参简易等优势。 事先,将所有模板的特征向量用于训练RF分类器。识别时,将待识别语料的特征向量送入RF分类器,将得到判为某类关键词的分类结果。 ### 6. 对于输入语料是完整语句而非孤立词的情况 根据时长判断输入是完整语句 在提取MFCC之前,使用滑动窗口方法,将完整语句划分为时长相当于孤立词的子语句,再对各子语句进行以上步骤。 若某子语句被RF分类器预测为某关键词,则视为识别出语句内关键词。 若所有子语句被判为集外词,则视为语句中无关键词。 *以上内容基于目前文献资料调研结果,而经过中途的实验测试,经过优化调整,或与最终使用的技术路线略有出入。* ## 具体进度安排 + 2021年12月27日-2022年1月6日:开题;资料文献搜索 + 2022年1月7日-2022年1月15日:资料文献搜索;编写基础程序 + 2022年1月16日-2022年2月15日:系统基本搭建完成,测试与调整 + 2022年2月16日-2022年3月15日:完善系统;初稿 + 2022年3月16日-2022年4月25日:定稿;结题