# 毕业设计

**Repository Path**: linyunhe/GraduationProject

## Basic Information

- **Project Name**: 毕业设计
- **Description**: 关键词语音识别应用研究
- **Primary Language**: Python
- **License**: EPL-1.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 2
- **Forks**: 0
- **Created**: 2022-01-01
- **Last Updated**: 2022-05-13

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README


# 任务书

## 题目

关键词语音识别应用研究

## 论文写作要求

### 1. 目标

以往届毕设课题组员对关键词识别问题的研究成果为基础，改进各项实施细节，增强关键词语音识别系统，针对背景噪声和语速变化等的实用性和鲁棒性，并尝试实现完整语句中的关键词语音检索。

### 2. 思路与方法

研读参考文献，搭建关键词识别系统，增强系统的识别能力，之后加入完整语句中的关键词检索功能。

### 3. 进度安排

2021年12月27日-2022年1月6日：开题；资料文献搜索

2022年1月7日-2022年1月15日：资料文献搜索；编写基础程序

2022年1月16日-2022年2月15日：系统基本搭建完成，测试与调整

2022年2月16日-2022年3月15日：完善系统；初稿

2022年3月16日-2022年4月25日：定稿；结题

## 支持条件

+ 往届毕设课题组员采集的语料。

## 文献阅读要求

> + 俞锦祺. 小词汇量的关键词语音识别研究[D]. 厦门:厦门大学, 2021.
> + 吴迪. 基于传统机器学习的关键词语音识别[D]. 厦门:厦门大学, 2021
> + 汤志远, 李蓝天, 王东, 等. 语音识别基本法：Kaldi实践与探索[M]. 北京:电子工业出版社, 2021.
> + 姜囡. 语音信号识别技术与实践[M]. 沈阳:东北大学出版社, 2019
> + 白烨. 语音关键词检测方法综述[R]. 北京:人工智能前沿学生论坛, 2019

# 开题报告

## 题目

关键词语音识别应用研究

## 研究目标

以往届毕设课题组员对关键词识别问题的研究成果为基础，改进实施细节，增加必要环节，增强关键词语音识别系统的实用性和鲁棒性，进一步地实现整个语句中的关键词语音检索。具体包括：

### 1. 增强环境鲁棒性

研究如何克服背景噪声（如白噪声、人群噪声、背景音乐噪声等）干扰，提升嘈杂环境下的识别效果。

### 2. 支持不同语速

研究如何实现对以不同语速（慢速、中速、快速）念出的关键词的辨识。

### 3. 整个语句中的关键词识别

探索如何对完整语句中可能出现的关键词进行识别。编写出程序，为原有系统增加该环节。

## 研究思路

### 1. 进行语音识别领域特别是关键词语音识别领域的入门学习

阅读综述、专著、论文、网络文章等各类有关参考资料，学习语音识别基本流程，明确有关概念和术语，了解各类技术方法。

### 2. 对往届毕设课题组员的研究成果进行吸收内化

仔细阅读毕设论文，明确其研究使用的方法，学习其研究采取的步骤，充分利用其研究的成果和结论。

同时，也要特别留意其相对欠缺之处，注意扬长避短。

### 3. 在编程和测试中搭建和完善孤立关键词识别系统

独立自主地编写实验程序，按环节地搭建起完整的关键词识别系统。通过测试实验，不断对程序进行迭代、对系统进行改进。

其中，要注重对识别系统鲁棒性的要求。

### 4. 搭建完整语句中关键词识别系统

在基本目标完成的前提下，积极探索高级功能的实现，即检出在完整语句中可能出现的关键词。

编写出程序，为原有系统增加该环节。需要注意，在加入此高级功能后，基本功能即孤立关键词识别不应被影响。

## 研究方法

搭建基于模板匹配与嵌入学习的关键词识别系统。使用嵌入学习的LSTM（Long short-term memory，长短期记忆）算法，对语料进行特征提取。运用模板匹配思想，识别集外词。使用RF（Random Forest，随机森林）算法，对语料进行分类，从而识别关键词。使用滑动窗口方法，对语音流中可能出现的关键词进行识别。

### 1. 进行预处理和VAD（Voice Activity Detection，端点检测）

对待识别语料与模板，先进行预处理，再用改进的双门限法进行VAD，切除非语音区域。需特别注重这些环节的鲁棒性。

### 2. 提取语料的MFCC（Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数）

每帧语料的MFCC维数是固定的，但不同时长的语料的帧数不同，故不同时长的语料的MFCC总维数不同。

### 3. 构造固定维数特征向量

使用LSTM算法进行嵌入学习，从任意维数的MFCC特征中提取出固定维数的特征向量。

所有模板的特征向量要求事先计算完毕。待识别语料的特征向量在输入系统后计算得到。

采用某种向量距离定义，可得待识别语料与所有模板的特征向量之间的距离。

### 4. 运用模板匹配思想分离集外词

若待识别语料为集外词，则其与模板语料之间的特征向量的距离较大，因此，设置某阈值，当距离超过阈值时，判断为集外词，不送入分类器。

### 5. 使用RF算法进行分类

RF具有低方差特性，适合小样本训练集，也具备训练快速、调参简易等优势。

事先，将所有模板的特征向量用于训练RF分类器。识别时，将待识别语料的特征向量送入RF分类器，将得到判为某类关键词的分类结果。

### 6. 对于输入语料是完整语句而非孤立词的情况

根据时长判断输入是完整语句

在提取MFCC之前，使用滑动窗口方法，将完整语句划分为时长相当于孤立词的子语句，再对各子语句进行以上步骤。

若某子语句被RF分类器预测为某关键词，则视为识别出语句内关键词。

若所有子语句被判为集外词，则视为语句中无关键词。

*以上内容基于目前文献资料调研结果，而经过中途的实验测试，经过优化调整，或与最终使用的技术路线略有出入。*

## 具体进度安排

+ 2021年12月27日-2022年1月6日：开题；资料文献搜索

+ 2022年1月7日-2022年1月15日：资料文献搜索；编写基础程序

+ 2022年1月16日-2022年2月15日：系统基本搭建完成，测试与调整

+ 2022年2月16日-2022年3月15日：完善系统；初稿

+ 2022年3月16日-2022年4月25日：定稿；结题