一、基于音素的非特定人英语命令词识别算法研究(论文文献综述)
杨学斌[1](2021)在《低资源的维吾尔语语音识别系统设计与实现》文中提出在语音识别中,称训练语音时长30小时以下的语音识别系统为低资源语音识别系统。低资源的语音识别效果较差,原因是缺少了足够的训练数据,导致声学模型训练效果不好。本文主要研究低资源下的维吾尔语语音识别系统,引入了迁移学习来解决低资源下的语音识别声学建模问题。维吾尔语属于阿尔泰语系,对于迁移学习来说,在同语系中的迁移效果最好,但是阿尔泰语系其他语音语料没有开源,所以本文将大语量的英语和汉语作为源语料进行迁移学习实验,得到了如下的研究结果:1、将本文构建的英语声学模型隐藏层与汉语声学模型隐藏层到维吾尔语声学模型隐藏层进行迁移,研究结果表明两者在低资源的维吾尔语声学建模中均有效果。2、在已有的fine-tuning迁移与权重迁移实验方法上,提出了针对低资源维吾尔语声学建模的fine-tuning迁移与权重迁移实验方法。并分别采用了提出的fine-tuning迁移方法与权重迁移方法来进行英语与汉语到维吾尔语的迁移学习实验,实验结果表明fine-tuning迁移方法效果良好,而用权重迁移方法迁移层数多时效果较好,迁移层数少时没有效果。3、本文将MPE与x Ent训练方法引入了低资源的维吾尔语声学建模实验中,实验结果表明MPE方法优于x Ent方法。4、经过众多实验,最终得到了性能最好的声学模型,即使用权重迁移方法对汉语声学模型的隐藏层迁移前5层,实验结果的WER为18.75%。在进行声学建模的实验之后,本文利用实验结果最优的声学模型与开源的3-gram语言模型搭建了一个完整的维吾尔语语音识别系统。
算太本[2](2021)在《基于深度学习的安多藏语语音识别技术研究》文中指出语音识别是人机交互中最重要的研究方向,它是人类与机器之间联系的关键,更是信息社会朝着智能化和自动化方向发展的关键。随着深度学习的理论和技术的发展,基于深度学习的神经网络语音识别技术逐渐成为国内外的研究热点。基于深度学习的神经网络模型比传统的神经网络更能挖掘输入特征中的有效时序信息,增强特征的区分性能和表达能力。目前,相对于主流国际语言的语音识别技术研究,藏语语音识别技术的研究还处于发展阶段。本文通过分析藏文字的音位特征,研究了基于深度学习的藏语语音识别技术。主要工作内容如下:(1)分析了藏文字结构和拼读规则以及藏文字基本构件的音位特征,利用最大匹配算法实现了藏文字到对应国际音标符号的转换。为了声学模型和语言模型更有效地相结合而提出了宽式标音和严式标音的转换策略,设计了安多藏语字-音转换系统。(2)基于深度学习分别设计了藏语语音识别的声学模型和语言模型。首先,通过声学模型的卷积神经网络进行特征降维,同时连接时序分类作为损失函数,实现了藏语语音特征序列与音标序列的对齐与分类。其次,经过Transformer语言模型对音标序列到藏文句子的还原进行了编码和解码操作。(3)建立了不同建模单元的语料库并将拉萨方言和安多方言混合的语音数据集作为声学模型的训练集,通过与基准模型的对比实验,验证了本文方法的有效性。实验数据表明,语料规模为114小时左右的条件下本文深度神经网络结构的藏语语音识别系统能够取得较好的效果。
唐健[3](2020)在《深度学习语音识别系统中的若干建模问题研究》文中提出语音作为人类交流的自然方式,其作为人机交互的手段拥有的先天优势。自动语音识别要为了让计算机能够“听懂”人类的语音,实现由语音序列向文本序列的转化。伴随着深度学习发展,基于深度神经网络的语音识别如今已经成为主流。现在语音识别后端建模有两种框架:混合和端到端架构。在此背景下,本论文集中在两种架构下语音识别的若干建模问题研究。一方面,在混合架构下针对建模中的实用性问题(如时延问题,噪声鲁棒性问题)进行研究,‘减’少实际应用场景(如时延要求、噪声)对性能的影响;另一方面,针对端到端语音识别架构的不足,研究目前端到端模型的合理性问题(如注意力向量优化和多层级标签建模)。通过在模型搭建中加入‘低成本’但有效信息(如后验信息、多层级标签信息),为识别性能做‘加’法。首先、针对语音识别系统的时延问题,本文研究基于长短期记忆(Long Short Term Memory,LSTM)网络的在线语音识别声学建模。单向LSTM网络结构无时延但缺乏对未来时序的利用,双向LSTM网络充分利用了上下文时序信息但存在高时延的缺点。针对在线语音识别声学建模的高性能、时延可控的要求,本文提出了一种基于注意力机制的LSTM层结构(Attention-based LSTM,ALSTM)。ALSTM结构通过LSTM记忆历史时序,通过注意力机制建模一定窗长内的未来时序。实验结果表明由多层ALSTM串联构成的声学模型能获得与基于BLSTM识别系统相仿的性能表现。其次,针对语音识别系统的噪声鲁棒性问题,本文提出了稠密残差网络(Densely Connected Residual Network,DenseRNet),并用于构建声学模型。DenseR-Net采用残差网络的方式构建模型的基础单元,基础单元的连接采用稠密网络的稠密连接的方式。整体可以视为稠密网络和残差网络的融合。DenseRNet通过更充分利用多分辨率的隐层表达使得声学模型更具备鲁棒性。实验结果与可视化分析共同说明,该模型对不同信噪比语音具有鲁棒性。再次、针对注意力向量的优化问题,本文在端到端语音识别模型中探讨了使用模型后验信息对其优化的方法。我们尝试将后验注意力模型引入语音识别中并根据任务的特点进行相应的结构调整。实验表明模型的识别性能未达预期,并且模型受到曝光偏差的影响加剧。注意到该问题,本文进一步提出基于散度距离的惩罚项和交替更新策略(Alternate Learning Strategy,ALS)用于缓解曝光偏差问题。前者通过散度距离损失纠正后验信息使用所带来的曝光偏差,后者通过在编码-解码模型训练阶段引入采用推论方式计算的“辅助步”。实验表明,本文最终提出的扩展后验注意力模型(Extended Posterior Attention Modeling,EPAM)相较于传统的编码-解码模型在语音识别上具备了明显的性能优势。最后,结合现有研究工作中多层级标签建模不成熟、提升效果不明显的问题,本文提出了一种基于多文本序列间对齐映射的多层级标识端到端语音识别建模方法。语音识别中的目标文本序列可以是词级、字符级、子词级文本序列。多层级文本序列的获取成本很低但包含丰富的信息,并且我们注意到多层级文本序列间存在隐性的对齐映射关系。基于以上原因,本文将多文本序列间对齐映射关系引入端到端语音识别建模中,并提出将该对齐关系引入端到端模型搭建和解码过程中。具体来说,本文设计了一个全新的交互解码器结构用于生成多层级的文本输出预测;在解码阶段,本文提出了联合解码算法,该算法可以进一步对多层级预测输出结果进行交叉验证。在Switchboard和WSJ数据集的实验结果共同表明,基于多层级标识的端到端语音识别模型相比于传统的端到端语音识别系统可获得15%以上的相对词错误率下降。
汤剑[4](2020)在《基于深度学习的命令词识别算法研究与DSP实现》文中认为语音识别作为一种便捷的人机交互技术,在智能终端设备中有着广泛的应用需求。然而,目前各类具有高识别率的基于深度学习的语音识别技术因其所需要的巨大计算量而基本依托云服务器实现。为了提高适用性,摆脱网络依赖性,尤其是针对延时敏感的应用,研究和实现适用于嵌入式处理器的基于深度学习的语音识别技术具有十分重要的理论价值和现实意义。面向DSP实现,本文首先开展了命令词识别算法的优化设计研究,提出了一种混合结构的识别模型R-SRU,该模型以长短时记忆网络(LSTM)或门控循环单元(GRU)作为前级网络实现高阶语音特征的提取,采用多层简单循环单元(SRU)作为后级网络实现命令词识别,从而在确保识别性能的前提下,提升了模型的并行能力,降低了模型的参数量。基于谷歌公司命令词数据集的测试结果表明,在纯净语音环境下,R-SRU混合模型的识别准确率达到95.275%,相比于LSTM模型,识别准确率提高了 0.1%,模型参数量和乘法运算量分别下降了 3 7.2%和37.5%;在信噪比为5dB的车载噪声、餐厅噪声和粉红噪声环境下,R-SRU模型也能提供90.8%以上的识别率。针对所提出的R-SRU命令词识别模型,本文设计了基于TI公司C6655 DSP的嵌入式硬件平台。随后,本文以G-SRU(GRU为前级网络的R-SRU)为例,完成了G-SRU模型在C6655平台上的代码裁剪和移植,并从系统内存访问、代码结构和系统级代码三个方面递进地对所移植的算法进行了一系列优化操作,大幅降低了算法的计算复杂度。测试结果表明,优化后的G-SRU模型在C6655平台上运行所需的存储空间为37920字节,堆栈实际占用915148字节,完成单个命令词识别的计算复杂度为157MCycles,在1.25GHz主频下,识别速度为0.125s,具有良好的实时性能。
王福钊[5](2020)在《ROS地面移动机器人藏语语音控制的研究与实现》文中研究指明近年来,各种智能机器人如雨后春笋般涌现,正在不断改变着我们的生产和生活。越来越多的企业和科研机构投入大量人力和物力到智能机器人的研究中,相关实验室也在高校中纷纷成立。语音是人类进行交流时最直接、最简便、最高效的表达方式,是最丰富的信息传递载体,也是智能机器人与人类进行人机交互的重要方式。藏族是中华民族大家庭的重要成员,藏语是国内使用人数最多的民族语言。随着藏区社会经济的发展,各类智能技术和产品本地化的研究就显得更加紧迫。由于藏区经济、社会和科技的发展相对国内其它地区滞后,目前尚未有正式发布的、面向藏语的智能机器人产品,也没有成立机器人研究相关课题和团队。本文结合地区特色,研究和实现了基于机器人操作系统(ROS)的地面移动机器人藏语语音控制系统,其包括藏语语音识别的研究与实现、地面移动机器人的移动控制设计与实现两部分内容。对于藏语语音识别,本文研究了基于动态时间规划(DTW)算法和基于高斯混合隐马尔可夫(GMM-HMM)模型的两种语音识别方法。首先,结合机器人控制的实际应用需要,收集了100条控制命令(其中拉萨话49条,安多语51条),录制创建了5000个语音文件的语料库。其次,选取其中1000个语料作为测试集,其余4000个语料作为训练集。最后,在基于DTW的语音识别中使用偶然模板训练法进行模型训练,并验证了该方法的语音识别率为90.9%;在基于高斯混合隐马尔可夫模型的语音识别中进行模型训练,并验证了该方法的语音识别率为94.4%。在ROS地面移动机器人控制方面,本文着重研究了机器人操作系统ROS1.0架构特点、工程结构和通信机制,并分别设计实现了基于DTW和基于GMM-HMM的藏语语音命令词识别的移动机器人控制系统,并在Turtle Bot2移动机器人平台上进行了测试。测试表明,系统具有良好的可用性,对藏语语音指令的识别率较高,地面移动机器人接收指令后运动顺畅无误。
李雯雯[6](2019)在《嵌入式语音识别系统性能评测方法的研究与实现》文中研究说明目前针对嵌入式语音识别系统识别性能的评测方法存在缺乏性能评测标准、测试效率低、覆盖率低、耗费大量人力的问题。针对上述问题,提出了一套针对语音识别性能的评测标准,设计了一套测试用例模板,解决测试覆盖率低的问题,同时基于智能互补的观点,提出基于交叉测试的自动化测试及基于X86平台的自动化回归测试两种测试方案,以实现保证测试覆盖率的同时提高测试效率,充分释放人力。在深入分析语音识别工作流程及嵌入式软件测试方法,探讨语音识别系统的测试入口后,提出一套嵌入式语音识别系统识别性能的评测标准;结合嵌入式语音识别系统的实际应用场景及影响识别的因素,提出覆盖实际使用场景的测试用例模板;基于嵌入式软件测试方法,将交叉测试方法引入嵌入式语音识别系统的性能评测,并进一步提出基于交叉测试的自动化测试方案,完成自动播报语音数据、建立宿主机与目标机的通信、自动获取测试结果、自动统计并分析测试结果;为提高测试效率,提出基于X86平台的自动化回归测试方案,将语音识别系统部署在X86平台,借助X86平台的处理性能及内存资源优势进行测试,通过自动化测试脚本对测试结果进行分析统计,将整个测试过程实现自动化。实验结果表明,基于交叉测试的自动化测试方案能够极大地覆盖测试范围,并借助自动化测试工具提高了测试效率;基于X86平台的自动化回归测试方案可实现回归测试过程的整体自动化。论文提出的语音识别性能评测标准为嵌入式语音识别系统的性能分析提供了一套评估依据;提出的测试用例模板极大覆盖了测试场景;论文将交叉测试方法引入嵌入式语音识别系统的性能评测,使测试内容更全面、测试结果更具参考性;论文提出基于X86平台的自动化回归测试实现了回归测试过程的整体自动化,并且测试平台灵活方便好移植,极大地节省了测试时间。
张宁[7](2019)在《基于端到端的语音唤醒技术研究》文中进行了进一步梳理随着人工智能的迅猛发展和人机交互需求的不断增大,智能语音技术获得了前所未有突破。语音领域的研究成果,不仅推动了前沿科技的进步,更创造了巨大的市场价值,意义重大。语音唤醒是智能语音领域的重要研究方向,它的任务是在连续的语音流中,将一组给定的唤醒词检测识别出来。针对有登记语音的语音唤醒任务,本文建立了基于深度超向量的语音唤醒系统用以满足该唤醒需求。针对固定唤醒词的任务,本文重点研究了端到端(End-to-End,E2E)技术,并实现了基于端到端的语音唤醒系统。另外,还通过各种深度学习模型的应用,优化了系统参数配置,提升了的系统性能。本文工作主要包含以下三个部分:1、全面地梳理了语音识别的发展历史主线,对语音唤醒和端到端技术的前人工作、研究现状和最新进展进行了充分而详实的调研。2、针对有登记语音的语音唤醒任务,建立了基于深度超向量的语音唤醒系统。该系统使用深度神经网络(Deep Neural Network,DNN)作为一个特征提取器,提取语音的深度超向量,最后计算测试语音和模板的深度超向量之间余弦相似度。实验结果证明基于深度超向量的系统相比基于分段动态时间规整(Segmental DTW,S-DTW)的系统具有全面的性能优势。3、本文实现了基于端到端的语音唤醒系统。该系统只需要一个预先训练好神经网络作为声学模型,输入声学特征后,通过神经网络的前向传播算法和后验概率后处理模块,就可以相应输出唤醒词的置信度得分,在这个过程中不需要复杂的解码过程,实现了端到端框架。并且,本文将TDNN、LSTM、GRU和TDNN-F在内的多种深度学习模型作为声学模型引入系统,通过多组实验,对比了各个模型的系统性能,验证了本文的端到端唤醒系统的有效性。
肖乐[8](2019)在《基于迁移学习的语音唤醒技术研究》文中认为语音唤醒(Voice Wakeup)主要在智能音箱等设备上使用,是人机交互的新入口,也是智能语音领域的重要研究方向。在实际的应用中,由于噪声环境的存在,以及远距离识别,给语音唤醒带来了不小的挑战。另外由于硬件设备对内存大小、计算资源和耗电量等性能的要求,也需要我们不断改进语音唤醒的系统性能。针对这些问题,本文研究了基于深度超向量和基于迁移学习的语音唤醒系统,致力于改善语音唤醒的性能。本文的工作如下:1、通过对DNN-HMM模型的输入帧数、模型维度等参数的优化来提升语音唤醒的效果。并对干净数据进行加噪和远场处理,从数据源头来提升系统性能。最后通过稀疏化来提升训练速度。2、针对语音唤醒的登记和识别,在改进DTW的方式下,提出基于深度超向量的登记和测试方法,并采用了Cosine距离来衡量模板的匹配程度。3、将基于迁移学习的方法应用于语音唤醒,通过老师模型的知识来指导学生模型的训练,这是通过软标签的提取来实现的,以此提升语音唤醒的识别效果。4、将语音唤醒系统在ARM平台上实现,通过端点检测来输入语音流,实现唤醒与命令词识别两个功能,并给出语音提示的交互过程。
苏云鹏[9](2019)在《基于深度学习的单句语音识别算法研究》文中研究指明语音识别是人机交互的重要手段之一,该技术可以将语音数据转换成计算机可理解的数据,从而使计算机有效地处理自然语言。近年来,由于便携式设备和人工智能等技术的迅速发展,语音识别技术的应用领域也随之变得更加广阔。经过几十年的优化改进,传统语音识别技术已经遇到发展瓶颈。目前,随着深度学习技术日趋成熟,出现了许多建模能力强大的神经网络结构,将深度学习技术应用到语音识别中有助于提升语音识别系统的性能。另外一方面,随着人机交互需求的提升,语音识别的应用场景也从简单的命令词识别转换到连续的单句语音识别,单句语音识别技术的研究对人机交互水平提升有重要意义。传统的语音识别技术主要依靠GMM-HMM结构进行识别系统的构建。GMM-HMM系统通过HMM对语音的时序特征信息构建模型,并基于GMM对HMM中的状态实现分类拟合以获得对语音的一个近似模拟。但是,由于GMM-HMM在非线性建模方面存在一定的局限性,限制了传统语音识别技术性能的进一步提升。在深度学习领域中,神经网络技术具备强大的非线性建模能力,可以弥补GMM-HMM模型中的缺陷。因此,本文在语音识别系统中应用了多种神经网络结构。本文分析并实现了一个基于GMM-HMM的传统语音识别系统,并将其作为用于比较的基线系统。GMM对非线性数据集的建模能力存在缺陷,因此引入深度学习中的DNN结构替代传统系统中的GMM部分对HMM状态进行分类。同时,使用DBN预训练技术对DNN-HMM系统进行了性能优化,对语音声学模型进行改进提升识别准确率,且应用了DAE技术对数据预处理来减少噪声干扰。由于DNN网络结构复杂并且DNN使用的激活函数是非线性的,所以DNN系统对单句语音识别性能优于GMM系统。本文的实验结果进一步证明了这一结论。本文进一步探究了其他深度学习技术在单句语音识别中应用的可能性。首先,本文基于CNN技术实现了一个小词汇量语音识别系统,该系统首先将语音信号转换为二维的时频图传入到网络的输入层中,经过CNN的卷积层和池化层处理之后生成新的特征集,最后通过全连接层使用softmax函数来对这些特征集进行分类,从而达到小词汇量下较好的识别效果。实验结果证明,CNN可对长度接近的语音信号进行特征提取和直接分类。但是CNN无法提取语音的时序特征信息,这需要结合其他神经网络进行弥补。因此,进行了对基于LSTM技术的单句语音识别系统的研究,通过引入CTC损失函数,LSTM网络可以在时序上将语音和识别出的文本进行对齐,这使得LSTM可以取代传统语音识别技术中的HMM部分。最后本文将LSTM和CNN结合,利用CNN对语音特征进行提取,并用LSTM进行时序上的对齐。实验结果证明CNN-LSTM在单句语音识别上的性能要优于GMM-HMM系统。
刘凯[10](2018)在《基于深度学习的语音唤醒研究及其应用》文中研究说明语音唤醒技术是一种特别的语音识别技术,随着移动互联网和人工智能时代的来临被应用在各种智能化设备上。语音唤醒经常扮演一个开启系统的入口角色,在手机助手、车载环境和智能家居环境运用得尤其多。语音唤醒技术一直在发展前行,但是在实际应用场景中还面临着噪声、远场等环境下识别效果差,在一些计算性能低的平台还面临着相对计算复杂度高、资源占用大的问题。本文主要针对以上问题,对声学模型进行优化,应用相对计算复杂度较低的解码算法,致力于提升语音唤醒系统的性能,同时还将语音唤醒系统应用在实际工程中,实现算法的移植。本文的主要工作包括:1、为提升噪声和远场环境下语音唤醒系统的准确性,将数据集进行加噪和模拟远场处理,训练多结构、精简的语音唤醒专用声学模型,并使用Viterbi算法进行路径搜索,实现基于HMM/Filler的语音唤醒系统。2、实现基于置信度解码计算的专用唤醒词与可定制唤醒词的语音唤醒系统。经过实验论证,使用基于置信度计算的语音唤醒系统相比于基于HMM/Filler的语音唤醒系统,能够获得更好的识别性能。3、语音唤醒系统的工程应用。将语音唤醒系统的后台算法移植到Android平台,并编写可扩展调用的SDK,在移动端验证语音唤醒系统的可行性。
二、基于音素的非特定人英语命令词识别算法研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于音素的非特定人英语命令词识别算法研究(论文提纲范文)
(1)低资源的维吾尔语语音识别系统设计与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 语音识别技术国内外研究现状 |
1.3 低资源语音识别技术研究现状 |
1.4 研究工作概述 |
1.5 论文组织结构 |
第2章 维吾尔语语音识别与迁移学习相关技术 |
2.1 维吾尔语介绍 |
2.2 语音识别相关技术 |
2.2.1 语音识别流程 |
2.2.2 特征提取 |
2.2.3 声学模型 |
2.2.4 语言模型 |
2.2.5 解码器 |
2.2.6 评价标准 |
2.2.7 训练方法 |
2.3 迁移学习 |
2.4 本章小结 |
第3章 基于DNN-HMM的维吾尔语声学建模 |
3.1 数据集介绍与展示 |
3.2 实验环境 |
3.2.1 硬件环境 |
3.2.2 软件环境 |
3.3 语言模型测试 |
3.4 数据预处理 |
3.5 特征提取过程 |
3.5.1 预加重 |
3.5.2 分帧加窗 |
3.5.3 傅里叶变换 |
3.5.4 Mel滤波器组 |
3.6 GMM-HMM声学模型训练 |
3.6.1 GMM-HMM单音素训练 |
3.6.2 GMM-HMM三音素训练 |
3.7 DNN-HMM基线系统声学建模 |
3.8 语音识别结果对比 |
3.8.1 维吾尔语语音识别过程 |
3.8.2 维吾尔语语音识别结果 |
3.9 本章小结 |
第4章 基于迁移学习的维吾尔语声学建模 |
4.1 使用的迁移学习方法 |
4.1.1 fine-tuning迁移 |
4.1.2 权重迁移 |
4.2 英语与汉语数据集的建立 |
4.3 基于fine-tuning迁移的声学模型建模 |
4.3.1 英语迁移 |
4.3.2 汉语迁移 |
4.4 基于权重迁移的声学模型建模 |
4.4.1 汉语迁移 |
4.4.2 英语迁移 |
4.5 识别结果对比 |
4.6 本章小结 |
第5章 维吾尔语语音识别系统设计与实现 |
5.1 设计概要 |
5.2 系统原理及构成 |
5.2.1 软件系统的设计与实现 |
5.2.2 主界面设计 |
5.2.3 文件选择设计 |
5.2.4 播放音频设计 |
5.2.5 前端与后端交互设计 |
5.2.6 后端解码部分设计 |
5.3 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
(2)基于深度学习的安多藏语语音识别技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 藏语语音识别的研究现状 |
1.4 论文的研究内容及组织结构 |
第二章 语音识别相关理论 |
2.1 语音识别原理 |
2.1.1 声学模型 |
2.1.2 语言模型 |
2.2 深度学习的基本理论 |
2.2.1 全连接神经网络 |
2.2.2 循环神经网络 |
2.2.3 卷积神经网络 |
2.2.4 Transformer模型 |
2.3 本章小结 |
第三章 安多藏语音位特征分析 |
3.1 藏文字字性 |
3.2 安多藏语音位特征 |
3.2.1 辅音集 |
3.2.2 元音集 |
3.2.3 梵音藏文字 |
3.3 安多藏语字-音转换系统 |
3.3.1 安多藏语字-音转换算法 |
3.3.2 安多藏语字-音转换策略 |
3.3.3 系统设计与实验分析 |
3.4 本章小结 |
第四章 基于深度学习的安多藏语语音识别 |
4.1 安多藏语声学模型 |
4.1.1 信号预处理 |
4.1.2 声学特征提取 |
4.1.3 藏语声学模型框架 |
4.2 安多藏语语言模型 |
4.2.1 语言模型框架 |
4.2.2 语言模型编码器 |
4.2.3 语言模型解码器 |
4.3 实验分析 |
4.3.1 实验语料库 |
4.3.2 实验环境 |
4.3.3 基准模型实验 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
附录 |
致谢 |
个人简历 |
读研期间参加的科研项目和研究成果 |
(3)深度学习语音识别系统中的若干建模问题研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 语音识别 |
1.1.1语音识别系统划分 |
1.1.2 语音识别历史回顾 |
1.1.3 语音识别系统结构 |
1.2 深度学习 |
1.2.1 深度学习的历史回顾 |
1.2.2 常见的神经网络结构 |
1.3 基于深度学习的语音识别 |
1.3.1 基于深度学习的混合架构语音识别 |
1.3.2 基于深度学习的端到端架构语音识别 |
1.3.3 深度学习语音识别系统中的建模问题 |
1.4 本文的主要研究内容及组织结构 |
1.4.1 本文的主要内容 |
1.4.2 本文的组织结构 |
1.5 语音识别数据库简介 |
第2章 时序注意机制的LSTM声学模型与时延问题研究 |
2.1 前言 |
2.2 前馈序列记忆神经网络 |
2.3 基于未来时序注意机制的单向LSTM模型 |
2.4 实验结果与分析 |
2.5 本章小结 |
第3章 稠密残差网络声学模型与噪声鲁棒性问题研究 |
3.1 前言 |
3.2 残差网络与稠密网络 |
3.2.1 残差网络简介 |
3.2.2 稠密网络简介 |
3.2.3 两种网络的结构对比 |
3.3 基于稠密残差网络的声学模型 |
3.3.1 稠密残差层结构 |
3.3.2 基于稠密残差网络的声学模型搭建 |
3.3.3 讨论:模型配置 |
3.4 实验结果与分析 |
3.4.1 CHiME4:多通道语音识别任务 |
3.4.2 模型的噪声鲁棒性分析 |
3.5 本章小结 |
第4章 扩展后验注意力模型与注意力向量优化问题 |
4.1 前言 |
4.2 编码-解码模型相关内容介绍 |
4.2.1 曝光偏差和计划采样方法 |
4.2.2 后验注意力模型介绍 |
4.3 基于扩展后验注意力机制的端到端语音识别 |
4.3.1 扩展后验注意力模型结构 |
4.3.2 曝光偏差问题与解决方法 |
4.4 实验结果与分析 |
4.4.1 实验验证:后验优化注意力分布 |
4.4.2 实验验证:曝光误差 |
4.4.3 实验总结:EPAM模型最终性能表现 |
4.5 本章小结 |
第5章 多层级标识序列对齐方法与多层级标签建模 |
5.1 前言 |
5.2 语音识别任务中的多层级标识 |
5.2.1 多种文本序列表示形式 |
5.2.2 常见的子词分割算法 |
5.2.3 现有端到端语音识别建模研究工作 |
5.3 基于序列间对齐映射的多层级端到端语音识别建模 |
5.3.1 多层级标识间的对齐映射关系 |
5.3.2 对齐映射关系与端到端模型结构 |
5.3.3 序列间对齐映射关系与端到端解码过程 |
5.4 实验结果与分析 |
5.4.1 模型的性能表现 |
5.4.2 模型的可视化与分析 |
5.4.3 与已有工作的比较 |
5.5 本章小结 |
第6章 总结 |
6.1 本文的主要贡献与创新点 |
6.2 后续的研究工作 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(4)基于深度学习的命令词识别算法研究与DSP实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 命令词识别国内外研究现状 |
1.2.1 传统命令词识别方法 |
1.2.2 基于连续语音识别技术的命令词识别方法 |
1.2.3 基于深度学习的命令词识别方法 |
1.3 嵌入式平台语音识别方案 |
1.3.1 现有语音识别方案 |
1.3.2 DSP平台发展现状 |
1.4 本文主要工作及章节安排 |
第2章 命令词识别关键技术 |
2.1 语音特征提取 |
2.1.1 fBank特征 |
2.1.2 MFCC特征计算 |
2.1.3 动态差分特征 |
2.2 神经元和神经网络 |
2.2.1 神经元 |
2.2.2 多层感知机 |
2.2.3 BP算法 |
2.3 深层神经网络 |
2.3.1 深度神经网络 |
2.3.2 循环神经网络 |
2.3.3 RNN的梯度消失和梯度爆炸 |
2.4 本章小结 |
第3章 R-SRU命令词识别混合模型设计 |
3.1 基于LSTM网络的命令词识别 |
3.2 基于LSTM改进型的命令词识别 |
3.2.1 基于GRU网络的命令词识别 |
3.2.2 基于SRU网络的命令词识别 |
3.3 混合网络模型R-SRU的设计 |
3.3.1 R-SRU混合模型的提出 |
3.3.2 Dropout层设计 |
3.4 数据准备与模型训练 |
3.4.1 训练、测试数据集 |
3.4.2 特征提取 |
3.4.3 实验环境与模型训练 |
3.5 算法性能分析 |
3.5.1 隐藏层节点数对算法性能的影响 |
3.5.2 隐藏层数对算法性能的影响 |
3.5.3 R-SRU算法性能分析 |
3.5.4 不同噪声环境下模型性能分析 |
3.6 本章小结 |
第4章 G-SRU混合模型在C6655平台上的实现与优化 |
4.1 硬件平台设计 |
4.1.1 设计需求分析 |
4.1.2 TMS320C6655简介 |
4.1.3 硬件平台结构设计 |
4.1.4 硬件平台电路设计 |
4.2 G-SRU模型在C6655平台上的移植 |
4.2.1 开发工具 |
4.2.2 G-SRU模型的移植 |
4.2.3 实验结果 |
4.3 面向C6655平台的G-SRU代码优化 |
4.3.1 系统内存访问优化 |
4.3.2 代码结构优化 |
4.3.3 系统级代码优化 |
4.4 优化结果与分析 |
4.5 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 未来工作展望 |
参考文献 |
缩略语对照表 |
攻读学位期间的研究成果 |
致谢 |
(5)ROS地面移动机器人藏语语音控制的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 论文的研究背景 |
1.2 论文的研究目的和意义 |
1.3 论文研究内容和组织结构 |
第二章 藏语语音识别简介 |
2.1 藏语概述 |
2.1.1 文字特性 |
2.1.2 语音特性 |
2.2 语音识别概述 |
2.2.1 语音识别概念 |
2.2.2 语音识别分类 |
2.3 语音识别技术 |
2.3.1 基于模板匹配的语音识别 |
2.3.2 基于隐马尔可夫的语音识别 |
2.3.3 基于神经网络的语音识别 |
2.3.4 语音识别技术小结 |
2.4 藏语语音识别研究现状 |
第三章 ROS概述 |
3.1 ROS介绍 |
3.1.1 ROS特点 |
3.1.2 ROS架构 |
3.1.3 ROS消息通信机制 |
3.1.4 ROS工程结构 |
3.2 ROS研究与应用现状 |
第四章 藏语语音识别模块的实现 |
4.1 语料库建设 |
4.1.1 文本语料库 |
4.1.2 语音语料库 |
4.2 语音前期处理 |
4.2.1 语音预加重 |
4.2.2 语音端点检测 |
4.2.3 分帧加窗 |
4.2.4 特征提取 |
4.3 DTW方法语音训练与识别 |
4.3.1 创建特征模板库 |
4.3.2 动态语音匹配 |
4.3.3 实验测试 |
4.4 GMM-HMM模型训练与识别 |
4.4.1 模型训练 |
4.4.2 语音识别 |
4.4.3 实验测试 |
第五章 ROS机器人移动控制模块开发 |
5.1 系统资源 |
5.1.1 硬件资源 |
5.1.2 软件资源 |
5.2 ROS节点设计 |
5.2.1 总体设计 |
5.2.2 项目搭建 |
5.2.3 移动控制功能调试 |
第六章 移动机器人藏语语音控制的实现 |
6.1 藏语语音识别节点 |
6.2 TURTLEBOT2 移动控制节点 |
6.3 系统测试 |
第七章 总结和展望 |
参考文献 |
攻读学位期间发表的学术论文目录 |
攻读学位期间参与的科研项目 |
致谢 |
(6)嵌入式语音识别系统性能评测方法的研究与实现(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 嵌入式软件测试国内外研究现状 |
1.2.2 嵌入式语音识别系统的性能评测方案 |
1.3 研究内容及创新点 |
1.4 论文组织结构 |
第二章 相关背景知识介绍 |
2.1 语音识别系统工作流程 |
2.1.1 前端信号处理 |
2.1.2 后端识别 |
2.1.3 整体流程 |
2.2 语音识别系统的应用 |
2.2.1 语音识别系统分类 |
2.2.2 嵌入式语音识别系统 |
2.3 软件测试技术 |
2.3.1 软件测试的定义及目的 |
2.3.2 软件测试的过程 |
2.3.3 性能评测指标 |
2.3.4 传统软件测试方法 |
2.3.5 软件自动化测试 |
2.4 嵌入式软件测试 |
2.4.1 嵌入式软件的特点 |
2.4.2 嵌入式软件测试方法 |
2.4.3 嵌入式软件测试过程 |
2.4.4 嵌入式软件测试的难点 |
2.5 本章小结 |
第三章 嵌入式语音识别系统的性能评测方案 |
3.1 测试用例的设计 |
3.1.1 需求分析 |
3.1.2 影响语音识别的因素 |
3.1.3 设计测试用例 |
3.2 测试数据准备 |
3.2.1 语音数据 |
3.2.2 标注文件 |
3.3 系统测试方案 |
3.3.1 测试分析 |
3.3.2 测试方案 |
3.4 性能评测 |
3.4.1 唤醒及识别指标的计算方法 |
3.4.2 前端信号处理性能评测方式 |
3.5 本章小结 |
第四章 基于交叉测试的自动化测试方案 |
4.1 交叉测试方案 |
4.2 自动化播报语音 |
4.3 自动化传输测试数据 |
4.3.1 数据需求 |
4.3.2 定义通信协议 |
4.3.3 数据传输过程 |
4.4 自动化分析测试数据 |
4.4.1 数据分析 |
4.4.2 标注文件 |
4.5 实验验证 |
4.5.1 实验过程 |
4.5.2 结果分析 |
4.6 本章小结 |
第五章 基于X86平台的自动化回归测试方案 |
5.1 X86自动化回归测试方案 |
5.2 X86自动化回归测试的引入 |
5.2.1 自动化回归测试 |
5.2.2 X86自动化回归测试的设计原则 |
5.3 X86自动化回归测试的设计策略 |
5.3.1 测试数据采集及格式要求 |
5.3.2 测试方案的架构 |
5.3.3 测试工具的可配置参数 |
5.3.4 测试脚本 |
5.4 X86自动化回归测试的实现 |
5.4.1 回归测试的测试用例选择 |
5.4.2 自动化回归测试过程 |
5.5 实验验证 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
致谢 |
(7)基于端到端的语音唤醒技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 引言 |
1.2 智能语音的发展历史 |
1.3 语音唤醒 |
1.4 本文主要工作和篇章结构 |
第二章 语音唤醒相关技术及背景知识 |
2.1 语音识别系统 |
2.2 语音信号预处理 |
2.2.1 采样和量化 |
2.2.2 端点检测 |
2.3 特征提取 |
2.4 GMM-HMM |
2.4.1 高斯混合模型GMM |
2.4.2 隐马尔可夫模型HMM |
2.4.3 GMM-HMM系统 |
2.5 DNN-HMM |
2.5.1 深度神经网络DNN |
2.5.2 DNN-HMM系统 |
2.6 端到端技术 |
2.7 语音唤醒技术 |
2.7.1 主流方法 |
2.7.2 语音唤醒的评价指标和难点 |
2.8 本章小结 |
第三章 基于深度超向量的自定义唤醒词系统 |
3.1 引言 |
3.2 基于S-DTW的自定义唤醒词系统 |
3.2.1 DTW技术 |
3.2.2 系统原理 |
3.3 基于深度超向量的自定义唤醒词技术 |
3.3.1 深度超向量 |
3.3.2 系统原理 |
3.4 实验结果与分析 |
3.4.1 实验基本流程 |
3.4.2 实验数据 |
3.4.3 实验结果 |
3.5 本章小结 |
第四章 基于端到端的固定唤醒词系统 |
4.1 引言 |
4.2 基于置信度的固定唤醒词系统 |
4.2.1 系统原理 |
4.3 基于端到端的固定唤醒词技术 |
4.3.1 系统原理 |
4.3.2 置信度计算 |
4.4 基于TDNN的语音唤醒 |
4.4.1 TDNN |
4.4.2 实验数据 |
4.4.3 实验结果与分析 |
4.5 基于RNN的语音唤醒 |
4.5.1 LSTM |
4.5.2 GRU |
4.5.3 实验数据 |
4.5.4 实验结果与分析 |
4.6 基于TDNN-F的语音唤醒 |
4.6.1 TDNN-F |
4.6.2 实验数据 |
4.6.3 实验结果与分析 |
4.7 本章小结 |
第五章 总结与展望 |
参考文献 |
攻读硕士期间的科研成果 |
致谢 |
(8)基于迁移学习的语音唤醒技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 引言 |
1.2 语音识别技术研究现状 |
1.2.1 语音识别的发展历史 |
1.2.2 语音识别主要技术 |
1.2.3 语音识别的研究现状 |
1.3 语音唤醒综述 |
1.4 本文主要工作与结构安排 |
第二章 语音识别系统 |
2.1 语音识别系统基本框架 |
2.2 语音信号 |
2.2.1 语音信号的产生与处理 |
2.2.2 声学与语言学模型 |
2.2.3 语音特征提取 |
2.3 传统模型 |
2.3.1 高斯混合模型 |
2.3.2 隐马尔科夫模型 |
2.3.3 GMM-HMM模型 |
2.4 深度神经网络 |
2.4.1 DNN原理与基本结构 |
2.4.2 DNN-HMM模型 |
2.5 系统评价 |
2.5.1 评价方法 |
2.5.2 性能指标 |
2.6 本章小结 |
第三章 基于DNN-HMM的语音唤醒系统 |
3.1 引言 |
3.2 语音唤醒系统 |
3.2.1 系统框架 |
3.2.2 激活函数 |
3.2.3 有效语音检测 |
3.2.4 识别过程 |
3.3 数据集 |
3.3.1 数据集介绍 |
3.3.2 数据集处理 |
3.4 基于深度超向量的实验 |
3.4.1 实验说明 |
3.4.2 实验配置 |
3.4.3 实验结果与分析 |
3.5 本章小结 |
第四章 基于迁移学习的语音唤醒系统 |
4.1 引言 |
4.2 迁移学习综述 |
4.2.1 基本概念 |
4.2.2 形式化表示 |
4.2.3 深度迁移学习 |
4.3 DNN迁移学习系统 |
4.3.1 系统描述 |
4.3.2 DNN参数训练 |
4.3.3 系统框架 |
4.4 基于迁移学习的实验 |
4.4.1 数据准备 |
4.4.2 模型参数配置 |
4.4.3 迁移学习实验结果与分析 |
4.5 不同唤醒词下的实验 |
4.6 本章小结 |
第五章 嵌入式语音系统 |
5.1 系统简介 |
5.2 系统开发 |
5.2.1 系统架构图 |
5.2.2 开发流程 |
5.2.3 功能模块 |
5.3 系统测试 |
5.3.1 阈值测试 |
5.3.2 系统性能测试 |
5.4 系统总结 |
第六章 总结与展望 |
参考文献 |
攻读硕士期间的科研成果 |
致谢 |
(9)基于深度学习的单句语音识别算法研究(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究的目的和意义 |
1.2 语音识别国内外研究现状 |
1.3 深度学习和神经网络发展现状 |
1.4 本文研究内容和章节安排 |
第二章 传统语音识别算法研究 |
2.1 语音特征参数的提取 |
2.1.1 语音特征参数简介 |
2.1.2 梅尔倒谱系数简介 |
2.2 基于GMM-HMM的语音识别系统 |
2.2.1 早期语音识别算法分析 |
2.2.2 HMM在语音识别中的应用 |
2.2.3 GMM在语音识别中的应用 |
2.2.4 GMM-HMM语音识别系统 |
2.3 实验和分析 |
2.3.1 实验数据准备 |
2.3.2 实验结果与分析 |
2.4 本章总结 |
第三章 深度学习技术概述 |
3.1 神经网络技术简介 |
3.2 深度学习中的常见网络分析 |
3.2.1 深度置信网络 |
3.2.2 卷积神经网络 |
3.2.3 循环神经网络 |
3.2.4 长短时记忆网络 |
3.3 神经网络通用技术分析 |
3.3.1 激活函数选择 |
3.3.2 网络优化器选择 |
3.4 本章小结 |
第四章 DNN-HMM语音识别系统 |
4.1 引言 |
4.2 DNN+HMM语音识别系统研究 |
4.2.1 基础原理 |
4.2.2 使用RBM进行预训练 |
4.2.3 DNN识别系统训练过程 |
4.2.4 DNN识别系统解码过程 |
4.2.5 使用DAE进行降噪 |
4.3 实验及分析 |
4.3.1 实验数据准备 |
4.3.2 结果分析 |
4.4 本章小结 |
第五章 基于CNN和 LSTM的单句语音识别 |
5.1 引言 |
5.2 基于CNN的命令词识别系统 |
5.2.1 CNN提取语音特征研究 |
5.2.2 CNN语音识别系统分析 |
5.2.3 实验结果分析 |
5.3 基于LSTM的语音识别系统 |
5.4 实验分析 |
5.4.1 系统简介 |
5.4.2 结果分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 展望 |
参考文献 |
致谢 |
作者简介 |
(10)基于深度学习的语音唤醒研究及其应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 引言 |
1.2 语音识别技术研究及现状 |
1.2.1 语音识别技术的历史发展及其现状 |
1.2.2 语音识别技术介绍 |
1.2.3 语音唤醒技术介绍 |
1.3 本文主要工作 |
1.4 本文结构安排 |
第二章 语音识别系统概述 |
2.1 引言 |
2.2 语音预处理及特征提取 |
2.2.1 语音数字化表示 |
2.2.2 端点检测 |
2.2.3 特征提取 |
2.3 GMM-HMM |
2.3.1 GMM简介 |
2.3.2 HMM简介 |
2.3.3 GMM-HMM相关算法 |
2.4 深度神经网络 |
2.4.1 DNN框架 |
2.4.2 反向传播算法 |
2.4.3 神经网络相关参数 |
2.5 DNN-HMM框架 |
2.5.1 解码过程 |
2.5.2 训练过程 |
2.6 语言模型 |
2.7 命令词识别系统 |
2.8 本章小结 |
第三章 基于Keyword/Filler HMM的语音唤醒系统 |
3.1 引言 |
3.2 系统整体框架 |
3.3 数据集 |
3.4 数据处理 |
3.5 声学模型训练 |
3.5.1 大规模通用声学模型 |
3.5.2 专用唤醒词声学模型 |
3.6 实验结果及分析 |
3.7 本章小结 |
第四章 基于置信度的语音唤醒系统 |
4.1 引言 |
4.2 系统整体框架 |
4.3 解码 |
4.3.1 FST |
4.3.2 HCLG |
4.3.3 Lattice |
4.4 置信度 |
4.4.1 专用唤醒词系统置信度计算 |
4.4.2 可定制唤醒词系统置信度计算 |
4.5 TDNN |
4.6 实验结果及分析 |
4.7 本章小结 |
第五章 手机语音助手唤醒模块 |
5.1 工程简介 |
5.2 工程框架 |
5.3 工程优化及SDK说明 |
5.3.1 工程优化 |
5.3.2 SDK说明 |
5.4 工程总结 |
第六章 全文总结及工作展望 |
参考文献 |
攻读硕士期间的科研成果 |
致谢 |
四、基于音素的非特定人英语命令词识别算法研究(论文参考文献)
- [1]低资源的维吾尔语语音识别系统设计与实现[D]. 杨学斌. 西北民族大学, 2021(08)
- [2]基于深度学习的安多藏语语音识别技术研究[D]. 算太本. 青海师范大学, 2021(09)
- [3]深度学习语音识别系统中的若干建模问题研究[D]. 唐健. 中国科学技术大学, 2020(01)
- [4]基于深度学习的命令词识别算法研究与DSP实现[D]. 汤剑. 苏州大学, 2020(02)
- [5]ROS地面移动机器人藏语语音控制的研究与实现[D]. 王福钊. 西藏大学, 2020(02)
- [6]嵌入式语音识别系统性能评测方法的研究与实现[D]. 李雯雯. 南京邮电大学, 2019(02)
- [7]基于端到端的语音唤醒技术研究[D]. 张宁. 厦门大学, 2019(02)
- [8]基于迁移学习的语音唤醒技术研究[D]. 肖乐. 厦门大学, 2019(07)
- [9]基于深度学习的单句语音识别算法研究[D]. 苏云鹏. 西安电子科技大学, 2019(02)
- [10]基于深度学习的语音唤醒研究及其应用[D]. 刘凯. 厦门大学, 2018(07)