一、具有不同数目状态结点的HMMs在中国手语识别中的应用(论文文献综述)
桂彬彬[1](2021)在《汉语语音驱动的虚拟人手语翻译技术研究》文中研究说明在我国有2000多万患有听力障碍的人士,他们无法正常与周围人通过口语交流。为了让他们更容易融入普通社会群体,本文研究虚拟人手语翻译技术,将健全人的语音进行识别,翻译为虚拟人的手语动作,使得听力障碍的人士通过看懂虚拟人的手语,达到他们与正常人之间的交流,该课题具有广泛的应用前景。为此,本文对语音识别技术、手语翻译技术和虚拟手语动作合成技术三个方面展开研究,具体如下:(1)语音识别技术是本文研究的重点。针对传统的GMM-HMM中,GMM对概率估计的不足,本文在DNN-HMM模型框架基础上,提出1D-Goog Le Net-HMM声学模型。首先训练GMM-HMM模型,然后将使用Viterbi算法解码得到的隐状态序列作为训练1D-Goog Le Net的标注,最后对1D-Goog Le Net进行训练。通过1D-Goog Le Net-HMM模型输出每一帧对应隐状态的后验概率,然后计算观测似然度,接着解码得到的状态序列。最后在Kaldi框架中实现该算法。仿真实验表明,该模型的语音识别效果优于传统声学模型。(2)在端到端的CTC语音识别模型中,针对较长音频识别,会造成解码信息不足的问题,本文提出了基于滑动窗口注意力机制的端到端语音识别。引进滑动窗口注意力机制,将解码器在每一时刻的“注意力”集中到编码器的局部,然后在编码器输出和标签之间用CTC算法计算损失值。仿真实验表明,该模型语音识别效果优于一般的CTC语音识别模型。(3)语音识别后需要将汉语词序翻译为手语词序。由于汉语与手语在构词和语法上的差异,使得汉语词汇并不能和手语词汇一一对应,因此,本文提出应用带注意力机制的手语翻译模型。自建汉语词序-手语词序对语料库,采用LSTM的编码器和解码器实现了汉语词序到手语词序的翻译过程。(4)为了实现虚拟人对手语词序进行动作演示,本文应用Maya建模软件,制作了虚拟人物,并以手语词汇为基本单元制作了虚拟人手语动画;开发基于Web GL的3D Web应用,将语音识别、手语翻译和虚拟人手语动画构建成完整的系统,以网页的形式展示虚拟人汉语语音到手语的翻译过程,扩大了应用范围。
张群[2](2020)在《基于3D CNN和注意力机制的手语识别方法研究》文中研究指明视频级的手语识别作为计算机视觉研究领域中的热点问题之一,被广泛关注。手语识别是一项高难度的挑战性课题,涉及计算机视觉、模式识别、视频采集和处理以及自然语言处理等多个研究领域。手语识别通过将采集到的手语视频数据进行处理,再翻译成文字或语音,促进听障人群和健听人之间的交流,对于维护社会和谐发展具有重要的意义。近年来深度学习技术的发展推动了手语识别领域的研究,但由于手语行为本身的灵活性和细节性以及较强的时序性要求,手语识别的精度仍然有待提高。本文通过对手语行为进行深入的分析,提出基于三维卷积网络和注意力机制的手语识别方法,并在手语数据集上进行了评估和验证,其主要研究内容和贡献如下:(1)针对手语识别的时序性要求以及在可区分性特征提取方面的困难,提出了基于三维残差卷积神经网络的手语孤立词识别方法,借助于三维卷积网络强大的自主学习能力,避免了人工设计特征,实现自适应学习。以手语RGB视频流作为输入,利用滑动窗口对视频流进行分段,通过三维卷积网络同时捕获时空特征,实现其手语分类,并验证了本方法的有效性。(2)针对手语识别过程中存在的细节复杂性和手语动作变化的不确定性,本文依据人眼视觉注意力的特点,重点设计了手型特征,提出基于RCNN目标检测网络的局部手语识别算法,该算法结合目标检测网络对手部区域进行局部检测与定位,并基于三维卷积网络进行手部序列的时序建模。实验表明,该模型有效捕获了作为手语核心要素的手部特征,优化了识别结果,尤其在识别复杂多变的手势动作上具有较好的效果。(3)基于上述两点,提出了一种基于弱监督特征编码网络AM-Res C3D的全局-局部手语识别方法,进行手语时空特征的提取与分类,在三维残差网络的基础上引入注意力模型,通过对整个手语视频进行时序建模,并对关键时间段的视频序列进行重点关注,采用端到端的注意力算法来进行不同时序特征的聚合,获得更优的手语特征,最终实现手语行为的精准预测。实验表明,该方法有效结合了不同层级的时序信息,提高了识别精度和泛化性能。
黄世亮[3](2020)在《面向大词汇量的中国手语识别方法研究》文中认为手语识别是指利用计算机技术将由传感器或者摄像头采集到的手语信号转换为文本信号。手语识别这一技术可以很好地改善聋哑人和听障人士的交流困境,并且有利于推动人机交互领域的发展,非常具有研究意义和社会价值。近年来随着计算机技术的发展,手语识别从最简单的静态手势识别,过渡到对孤立手语词语的识别和对复杂的连续手语语句的识别。在这之中涌现出了一系列的研究成果。尤其是深度学习技术在各个领域的广泛应用,给手语识别带来了新的活力和研究方法。但是在手语识别中仍然存在很多问题没有得到很好的解决,准确高效地手语识别仍然面临着很多的挑战,在不同场景下的手语识别技术仍需要不断地加以完善。在此研究背景之下,本论文将围绕手语识别这一主题,以中国手语为研究对象,对大词汇量下的孤立词语手语识别和连续语句手语识别技术展开研究,并且提出相应的中国手语识别方法。本文的主要贡献和创新点概括如下:1.针对手语信号中存在的大量冗余信息会给手语的高效准确识别带来不利影响的问题,提出了基于手语信号空时关键信息的中国手语识别方法。分别从空间和时间两个维度上设计手语信号关键信息提取方案。在空间维度上,设计由打手语者双手区域部分的卷积神经网络手形特征,和表征手语空间运动的骨骼点轨迹特征组成的手语复合特征。在时间维度上,提取具有代表性手势的手语关键帧子序列代替原始手语输入序列,降低了模型复杂度。接着,在中国手语词汇的自然特性的基础之上,提出使用细粒度的手语子词单元作为表征中国手语的基本单元,代替手语词汇成为手语识别的基本目标单元。提出了一个基于双层长短时记忆网络的编码-解码模型对手语的时序关系进行序列到序列的建模,实现了端到端的孤立词语中国手语识别。并且针对手语识别中手语不同模态特征的异步表现问题,提出性能更优的模型级别融合方案解决此问题。2.手语信号在表达过程中,相邻高级语义信息由低级语义信息组成,低级语义信息则集中在不同短时间段之间。传统平坦型的网络对具有这种层次结构特性的手语信号建模效果较差。针对此问题,提出了一种基于边界自适应学习的中国手语识别方法。使用可学习的边界检测单元根据手语信号在前后两个方向的变化自适应地学习得到手语信号在时间领域上的边界信息,根据边界信息对手语序列进行一定的分割操作,将底层的手语视觉信息在更高层的编码结构中组成语义信息完成手语的层次结构编码,提升模型识别准确率。同时为了缓解长手语序列对识别效果的影响,提出结合放松了注意力权重约束的窗口注意力模型,对限定窗口区域内的编码信息进行解码,保证了注意力的稳定性。另外,发掘手语子词在大规模词汇量和长序列手语序列情况下对于手语建模的潜力,提出用手语子词单元将孤立手语词语识别和连续手语语句识别统一到同一个模型进行识别的方法,更加符合真实情景下未知手语识别的目标是单个词语还是一句话的实际情形。3.针对编码-解码模型缺乏路径约束的问题,考虑手语输入序列与输出序列单调对齐的特性,提出了基于改进的连接时间分类约束的中国手语识别方法研究。在分析连接时间分类中出现的“尖峰”问题基础之上,提出两种改进的连接时间分类方法。首先针对原始连接时间分类方法中输出路径中非空白标签符号被大量空白标签符号淹没的问题,提出加权连接时间分类方法,通过对路径中不同节点赋予不同权重的较少网络输出的空白标签高占比的路径;接着针对时序信号中标签符号对应的输入序列保持一定长度的先验信息,提出基于长度信息约束的连接时间分类方法,通过对路径长度先验信息的约束,避免了网络输出路径个别符号标签对应的路径段过长或者过短,使网络输出更合理的可行路径。最后利用改进的连接时间分类模型作为编码-解码手语识别方法的编码监督信息对编码器进行监督指导,约束输出序列与手语输入序列的单调对齐,联合训练整个模型提高模型在真实大词汇量场景的手语识别性能。
赵凯[4](2020)在《中国手语实时识别系统研究》文中研究指明世界上有数百万的聋哑人,他们不能像常人一样通过语言进行沟通,而是通过手语进行沟通交流,这给生活带来了诸多不便。因此,开发一套可以让常人理解他们的手语实时识别系统是非常有意义且有价值的。在本文中,我们研究了一套中国手语实时识别系统,该系统可以识别聋哑人的中国手语,并实时地通过文字与语音的形式将识别结果输出给用户。首先,我们创建一个中国手语数据集。依照国家通用手语常用词汇表,使用RGB摄像头采集了日常使用的5000个常用手语词汇。每个词汇分别由10位不同的聋哑人演示完成,整个数据集共包含500,000个视频样例。在满足系统实时性要求的前提下,为了提高系统的识别精度,我们提出了一种3D-CNN结合TV-L1光流处理的方法。采集到的RGB视频流需要先通过两步的降帧处理,再通过TV-L1光流计算,最后放入3D-CNN中提取特征向量。另外,我们还使用本文采集的数据集,分别在使用隐马尔可夫模型和循环神经网络的手语识别方法上进行了对比测试。结果表明,RGB视频流先通过TV-L1光流计算,再放入3D-CNN中提取特征的方法是有效的,并在包含1,000种词汇的数据集上获得90.1%的识别准确率。最后,我们提出了完整手语实时识别系统的创建,该系统由人工交互界面、运动检测模块、手部和头部检测模块以及视频采集机制等部分组成。实验结果表明,该系统具有不错的泛化性能和实时性。
梁智杰[5](2019)在《聋哑人手语识别关键技术研究》文中提出残障人士这一特殊群体的数量非常庞大,伴随着教育需求的日益增长,让教育发展的成果更多、更公平地惠及残障人士是构建开放融合式现代教育体系的必然趋势。科技馆作为残障人士非正式学习的主要场所,是他们接受教育的重要途径之一。其中,听力受损及语言残障人群面临的交流障碍主要包括获取展品信息困难和科技馆工作人员无法理解作为聋哑人主要沟通方式的手语。因此,利用新兴信息技术对手语进行识别有助于聋哑人群与健听人之间进行顺畅的沟通,对于构建和谐社会以及完善全民教育体系具有重要的现实意义。同时,作为人类身体最直观的表达,手语的应用有助于人机交互向更加自然、便捷的方式升级。因此手语识别是当今人工智能领域的研究热点。近年来,作为新一波人工智能浪潮的排头兵,深度学习为模式识别和计算机视觉领域注入了新的活力。伴随着Kinect V2等新型体感交互设备的普及应用,手语识别研究也迎来了新的契机。当前手语的识别主要存在以下几个具有挑战性的关键问题:(1)聋哑人手语数据集的有效性难以保证。一方面,为了使训练的模型能够适应面向非特定人的手语识别,需要大量采集不同人的演示数据;另一方面,很少有研究能够使用真正的聋人数据集,在使用规范手语数据的情况下,采集到的数据规模较小、容错能力差,差异性实际上又被忽略。(2)手语的实际应用场景往往比较复杂,背景和光照等客观因素对算法的识别效果有较大的干扰。(3)与传统的手势相比,手语序列存在着表意词丰富、动作灵活多变等特点,并且严重的肢体遮挡现象也较为常见,这就使得设计有辨识性的手语表征较为困难。(4)手语识别的最终目标是实现连续手语的识别,然而,连续手语的词与词之间存在不属于任何一个手语词的过渡冗余数据,这会严重影响连续手语识别的精度。基于上述背景,本文紧扣深度学习聋哑人手语识别这一研究立足点,对三维卷积神经网络、循环神经网络、残差网络、注意力机制以及多模式融合等模型进行了重点的探索,并基于这些模型具体实现了动态手语关键词和连续手语序列的识别,取得了一些富有实际意义的研究成果:1.针对问题(1),本文对手语识别方法随着交互设备的不断演变所经历的几个阶段进行了梳理,对识别精确度和交互体验等要素综合考量后,提出了基于计算机视觉和新一代体感交互设备的手语识别方案。针对特殊的光照和背景噪声干扰等条件,使用Kinect V2传感器探索出了多模态同源数据采集方案,并构建了自主的聋哑人手语公开数据集。2.针对问题(2),本文提出了一种融合多模态同源数据的三维卷积神经网络手语识别方法。该方法借助深层架构强大的端到端自主学习能力来取代传统的人工特征选取;通过构建双列深度神经网络,分别从红外图像和轮廓图像中逐层抽取和学习动态手语中具有区分性的时空特征,并利用骨骼数据对两种图像数据中的上肢运动轨迹进行准确的定位。最后,采用深度学习的融合策略对两列子网络的分类结果进行加权融合,从而有效避免单列网络分类器由于数据丢失所引起的分类错误,使模型对背景噪声和因不同光照条件而产生的干扰具有较高的准确性。3.针对问题(3),本文提出了一种基于宽残差和可卷积长短时记忆网络的融合式框架对手语序列进行精确的表征。该框架首先以三维卷积神经网络作为视频数据的特征提取器,以产生能够反映手语特点的短时空特征。而后,以双向可卷积长短时记忆网络对这些固定长度的短时空特征进行充分的时空编码,进一步形成手语的全局关联信息。在模型的后半段,引入堆叠的宽残差模块对特征进准确的分类,并最终通过融合策略对两种独立的数据分类结果进行融合,从而有效提高了模型对手语的辨识能力。4.针对问题(4),文本提出了一种基于可卷积长短时记忆网络注意力机制的连续手语识别方法。面对需要处理的连续手语,该方法使用伪三维残差网络结合平衡铰链损失函数对长序列中的过渡帧进行检测,判定出手语关键词的时间边界。在手语识别阶段,以伪残差网络从视频流中提取手语的空间特征和短时动态特征:使用融合注意力机制的可卷积长短时记忆网络对短时空特征进行编码,以充分获取手语的上下文长时空信息;在特征分类部分,引入了宽残差模块对空间特征进行精确表征从而得到连续手语的最终识别结果。
冯欣[6](2018)在《基于Kinect的非特定人连续中国手语识别》文中研究说明手语识别是人机交互领域的热点话题,是听力障碍人群日常交流中使用的主要工具。所谓的手语,是通过双手和手臂,同时将头部动作、脸部表情和肢体姿态作为辅助进行交流的语言。手语识别是利用计算机视觉、模式识别、机器学习等技术,通过分析手语动作数据,提取高效的特征以描述手语词,最后利用合适的分类器对手语进行分类识别,将手语翻译成文字或语音输出,促进听力障碍人群与其他社会人群的正常交流。手语识别可分为独立手语词识别和连续手语语句识别两大类。独立手语词识别相较于连续手语语句的识别,难度较小。连续手语识别的难点在于手语语句序列的分割和手语词识别,由于每个人打手语的习惯不同,个体差异性较大,连续手语识别仍是一个具有挑战性的难题。并且非特定人连续手语识别更具有研究意义和实用价值。本文利用Kinect传感器采集手语的RGB-D数据,建立并公开发布了连续中国日常手语数据集(SDUSign);结合Kinect提供的彩色和深度信息进行手掌分割的研究,并探讨了手语手形特征和运动轨迹特征的提取和融合;针对连续手语识别的两大问题,手语语句分割和手语词识别,采用不同的算法模型,将潜在动态条件随机场(Latent Dynamic Conditional Random Fields,LDCRF)用于解决连续手语的语句分割问题,隐马尔科夫模型(Hidden Markov Model,HMM)用于分割后的手语词识别;基于连续手语样本统计数据,建立了连续手语的语法约束概率模型,优化识别结果。本文主要研究非特定人连续中国手语识别,主要工作如下:首先,对手语识别问题的研究背景与研究意义进行阐述,研究和说明了目前有关手语识别的国内外的研究方法现状和研究成果现状,并对目前手语识别中存在的主要问题进行了说明,并对本论文的整体写作结构进行介绍。第二,研究了基于视觉的手语数据的获取,鉴于公开的中国手语数据集较少的问题,建立并发布了基于Kinect的连续中国日常手语数据集。该数据集包括采自17位实验者的40个中国手语词的3400组独立词样本和采自8位实验者的10个连续语句的800组连续手语样本。并详细介绍了采集过程和数据集所包含的数据信息。第三,研究了手语图像的预处理和特征提取。结合深度图像和彩色图像对手语表达中的双手进行分割,区分出左手和右手。并提取手语动作的手形特征和运动轨迹特征,手形特征包括方向梯度直方图特征(Histogram of Oriented Gradient,HOG)和面积比例特征,轨迹特征包括球坐标位置特征和手部位置特征。通过实验对比,发现结合手形特征和轨迹特征的特征描述方式,可以明显提高手语识别的准确率。第四,研究了非特定人连续手语识别。阐述了非特定人连续手语识别系统的算法流程。利用LDCRF进行连续语句的分割,并利用最大最小帧约束算法优化分割后的词序列的帧数,避免词片段帧数过多或过少的问题;利用HMM对后续的词片段进行识别,应用基于对SDUSign数据集样本的概率统计生成的语法约束概率模型对分割识别后的语句进行优化,提高语句识别准确率。并进行多组连续手语识别实验,实验表明,本文提出的方法能够有效识别连续手语语句,并能有效消除样本的个体差异性,非特定人连续手语实验结果也较理想,语句分割准确率达80.61%,词识别率达86.25%,语句识别正确率为73.75%,系统表现出优越的性能。最后,针对本文已完成的连续手语识别的工作进行总结,并展望了接下来连续手语识别研究中亟待解决的问题和解决思路。
李云[7](2013)在《基于肌电模式的中国手语识别研究及康复应用探索》文中研究指明作为最常用的人体动作,手势动作以其丰富多变的含义和灵活方便的执行方式,被广泛用于人类生活的方方面面。手势识别是指利用计算机来检测、分析和解释人所执行的手势动作,从而用于判断动作意图并提供相应的服务。随着现代科技的发展和人们生活水平的提升,手势动作识别成为了人机交互、手语识别、康复训练、运动医学等领域的研究热点。神经系统通过命令和协调不同肌群的活动来完成不同的手势动作。人体肌肉活动的时候,从皮肤表面采集到的电信号即为表面肌电信号(Surface electromyogranphy, SEMG)。SEMG通过对不同肌群活动时电信号的捕获来反映肢体的伸屈状态、位置等信息,是一种重要的手势动作感知方式。同时,放置在上肢的加速计捕获到的加速度信号(Acceleration, ACC)也能反映手势的运动轨迹及姿态变化,是另一种感知手势动作的方式。本文对基于SEMG的手势动作检测与识别技术进行了深入研究,一方面融合SEMG和ACC信息提出词汇量可扩展的连续中国手语识别方案,旨在实现自然和谐的聋哑人与正常人之间的交流,提高聋哑人的生活质量。另一方面将基于SEMG的手势动作识别技术推广到康复工程领域,以手势动作的识别结果辅助神经肌肉疾病患者进行康复训练,具有重要的医学价值。本研究的主要工作内容和创新点包括:1.基于多通道表面肌电信号的中国手语字母手势动作识别研究。此研究的目标是提出基于SEMG的手语手势动作识别方案,并研究能提高手语字母语识别结果的动作执行规范方案。主要的研究内容有:1)利用SEMG对30类中国手语字母手势进行识别,提出一种包括信号采集、数据分割、特征提取和分类器设计的手势识别算法;2)通过对手势动作过程的分解和所涉及肌肉活动状态的分析,提出了对30类中国手语字母动作的执行规范方案。分别开展不同用户执行规范方案前后的动作识别实验,结果都表明动作规范后识别结果得到了较大的提高;3)提出了一种利用独立成分分析和自适应滤波相结合的去噪方法。利用该方法对掺杂了ECG的SEMG信号进行处理,结果显示信号中的ECG噪声得到了有效的去除。2.融合表面肌电信号和加速度信号的中国手语孤立词识别研究。初步探索了两类传感器信息融合的手势识别技术,分别利用SEMG捕获手指手腕等精细动作的肌肉活动信息以及利用ACC捕获不同运动轨迹的手臂挥划信息,提出了一种多流隐马尔科夫(Hidden Markov Model, HMM)分类器和多级决策树相结合的手语孤立词识别方案。以中国手语30类单手孤立词和121类双手孤立词为对象开展识别实验,结果表明:SEMG的瞬时能量可有效分割出两类信号的活动段数据,融合两类信息的识别结果较单一传感器信息的识别有大幅提升,同时多流HMM结合多级决策树的分类算法除了具有较好的识别效果还提升了计算速度。3.融合两类传感器信息词汇量可扩展的连续中国手语手势识别。此研究目的是希望利用有限种类的手语词数据得到对更多类别手语词的识别,并实现对连续中国手语手势的识别。依据两类传感器捕获的信息,将中国手语孤立词从执行构成角度拆分为手型、朝向和轨迹三类要素。提出利用要素的识别结果识别孤立词,再用孤立词识别结果识别手语词的连续手语识别方案,在一定程度上扩展可识别的词汇规模。实验结果表明,以120类中国手语双手孤立词组成的200个连续手语句子为对象,利用本方法可以得到很好的孤立词分类结果。同时以统计语言模型进行句子中前后孤立词的识别纠错,以句法模型进行句子整体架构检错,能实现连续句子的有效识别。4.探索基于SEMG的手势识别在康复领域的应用。此研究目标是以手势识别结果辅助神经肌肉系统疾病患者进行康复训练,是基于SEMG的手势识别技术在康复工程领域的初步探索。针对中风患者执行的20类手势动作,利用高密度肌电电极捕获患肢带有无意识肌肉痉挛干扰的SEMG信号,提出了一套包括特征提取、特征降维和分类器设计在内的有效的动作识别方案。同时,针对高密度电极资源占用多、佩戴繁琐的问题,通过选择空间滤波方式、电极通道的选取、SEMG信号分析窗长度、采样率和高通滤波截止频率,大大减少了数据的冗余,为实际的临床应用提供参考依据。本论文研究工作得到了国家863高科技研究发展计划“基于肌电传感器和加速计的手势交互设备研究”(2009AA01Z322)、国家自然科学基金项目“基于表面肌电的中国手语手势识别研究”(60703069)、NOKIA赫尔辛基研究中心及北京研究院合作项目,以及中国科学技术大学研究生创新基金的资助。
杨全[8](2013)在《基于表观建模的中国手语识别技术研究》文中提出研究中国手语的识别技术,就是为了把聋人使用的手语通过计算机自动、高效地完成机器翻译,从而实现手语与自然语音的无障碍交流。这种方式便于聋人融入社会,有利于他们与周围环境的交流,为其提供更好的服务。同时,手语识别在其他应用领域,也有着深远的研究意义。基于计算机视觉的手语识别作为一种自然、直观的交互方式,无需附加的物理设备作为输入,在人机交互过程研究中占很大比重,能够广泛地应用于多学科领域。作为一个非常有意义的研究课题,手语识别的研究,不仅有助于改善、提高聋人的生活、学习和工作环境,也能够提高计算机对人类自然语言的理解水平,发展成为一种能够付诸应用的最自然的人机交互方式。本文从自然交互方式的角度出发,研究了基于机器视觉的手语手势跟踪、手势分割提取、手语表观建模、SVM核函数构建算法及中国手指语字母的识别。具体研究工作包括以下几个方面:(1)根据Kinect同步拍摄深度视频信息的特点,使用手语视频中的深度图像信息对CamShift加以改进,提出了一种在复杂场景下跟踪能力更强、抗干扰性能更好的,适于手语识别应用的DICamShift (Depth Image CamShift)算法。采用基于深度图像信息的跟踪算法在手语视频中确定手势区域,对手语手势进行定位跟踪。在手势提取方面,通过计算手势深度图像确定手势的主轴方向,提出了一种基于深度图像信息的椭圆边界肤色建模方法。(2)在复杂背景下的手势提取过程中,结合椭圆边界肤色模型,得出新的基于深度积分图像的二维OTSU算法,并将积分图和粒子群结合用于二维OTSU算法,提出了基于深度积分图和粒子群优化的OTSU算法提取手势图像。(3)在手语表观建模时,为了使其各种视觉特征均可以被描述的更为准确,同时提取了SURF特征,Gabor小波纹理特征和颜色直方图特征,作为手势表观特征的完备特征集。在解决手势图像局部特征点个数不同的问题时,本文提出使用BoW (Bag of Words)方法,把提取出的手语完备特征集量化生成手语视觉单词(Sign Language Visual Word)。对提取到的手势特征,采用K-Means聚类算法,生成手语SURF词包、Gabor词包和颜色直方图词包,最后把所有词包经过CCA融合后的结果作为手语的特征。(4)研究了SVM及核函数理论,通过提取相同的手势特征对单核SVM分类器进行训练,比对研究不同核函数SVM在手语识别中的效果。提出构建一种新的适于手语识别的核函数HKernel,并证明了HKernel满足Mercer条件,可以作为用于手语识别的SVM核函数。鉴于手语BoW模型并未考虑语义信息,所以本文提出构建基于H Kernel和BoW语义核的混合核函数SVM进行训练学习及手语识别。
周佳[9](2011)在《基于手势数据分析的地方手语的合成研究》文中研究说明手语是聋哑人群体用来交流、学习的主要手段。许多国家和地区都将手语作为一门语言学来研究,并且取得了一定的成果。在计算机领域,研究者们根据手语语言学者的研究成果,将手语表达移植到计算机界面上来,实现人机交互,为聋哑人提供了更加方便可靠的学习工作环境,让他们更好地参与到社会活动中来。手语动画合成系统正是基于上述的意愿而产生的。目前中国手语动画合成系统日趋完善,可以为健听人士和聋哑人群体提供一种具备信息化的方便快捷的学习交流途径。2008年奥运会、2010年世博会上中国手语动画合成系统的成功展出及使用,进一步表明了中国全民共同参与国家盛事、实现社会和谐的美好愿望。然而中国手语只是中国标准手语的简称,由于受历史、宗教、文化等因素的影响,中国的不同地区存在地方手语,这些地方手语与中国标准手语之间存在区别和联系,而且地方手语的重要性不容忽略,它作为一种语言文化长期广泛地影响着地方聋哑人群体的生活。因此要实现各种地区之间的聋哑人群体的交流,地方手语合成系统将是一个很好的选择。本文首先对中国手语动画系统中的虚拟人角色动作缺乏真实感的问题进行改进。根据手语语言学的研究得知人的手势动作是由不同的元素组成,在中国手语动画系统平台的基础上,将手势数据进一步分解,得到更小的具有相似运动状态的运动单元,再进一步地加以利用。本文首先使手势数据中的肩、腕、肘关节数据与手形的手指关节数据分离,将数据帧中的手形数据采用动态规划分段,得到若干基本运动单元,使得每个运动单元中的手形状态相似。然后将这些运动单元进行时间规整以及动态聚类,得到具有时序信息的手形类,再进一步将这些手形类数据合成新的手势数据。最后本文就地方手语中的上海手语,分析了该手语与中国标准手语的异同,通过上述方法合成新的上海手语手势数据,更新原来中国手语数据库,得到地方手语手势数据库,可以通过相同的手语动画系统输出上海手语手势。
田建勋[10](2011)在《基于N-gram模型和句法模型的连续中国手语识别方法研究》文中研究表明近年来,智能人机交互在人们的日常生活中占据了越来越重要的地位。随着人机交互的不断发展,要求人们使用更加直观快捷的交流方式。手语作为一种特殊的语言,不仅可以帮助聋哑人与其他人进行正常的交流,而且手语手势也可以作为一种新的交流方法应用在人机交互中。手语包含了手的形状、位置、运动、朝向和面部表情等丰富的信息,进行手语识别研究可以促进计算语言学、空间几何学、模式识别学、计算机视觉、图像图形学、机器人学等多个学科的发展。因此,手语手势识别对提高计算机的人类语言理解水平和发展人机交互技术具有重要意义。表面肌电(Surface Electromyography, SEMG)传感器和加速计(Accelerometer, ACC)由于其结构简单、成本较低、便于携带的特点,成为了目前手势识别研究中两种常用的传感器设备。SEMG和ACC信息分别从不同的角度对手语动作的特征进行描述。SEMG反映了手的形态、关节的伸屈、手部肌肉的收缩放松等信息,在精细手指动作识别上有着独特优势,但它本身是一种微弱的电生理信号,对传感器安放位置比较敏感,其信号采集时受外界影响较大。加速计可以对手势的大尺度运动信息进行检测,但其无法精确检测出静态手势和小幅度运动手势。本文一方面结合表面肌电(surface electromyography,SEMG)传感器和加速计(accelerometer,ACC)在手势信息检测上的不同优势,提出了基于两种传感器信息融合的手语手势识别方法。另一方面针对SEMG等信号受个体动作差异影响较大的问题,将统计语言模型和句法模型引入到手语识别中,利用语言学的知识对手语识别结果进行检测,提高多类手语手势动作的识别率,扩展可识别词汇量。本文主要研究内容和研究成果如下:(1)将手语词拆分成词根的组合形式,以“词根”作为手语识别基本单元。用词根代替整个手语词进行多流隐马尔科夫(Hidden Markov Model,HMM)建模识别,并使用多级决策树方法降低识别复杂度,有效缩短了训练和识别所消耗的时间,提高了识别率。(2)针对中国手语识别中出现的错误,将统计语言模型引入了识别过程,提出了基于N-gram模型的中国手语词根识别纠错方法。该方法首先通过对常见的手语语料库进行统计,得到相应的词根接续概率,然后利用互信息,转移概率等对相邻的词根组进行判定,从中检查出识别错误的词根。这种方法的优点在于用来进行词根接续判断的互信息等参数来源于语料库的概率信息,不会受到信号本身差异性的影响。使用此方法,得到的手语词根识别率达到90%以上,句子的识别率相比纠错前也有了很大的提高。(3)将句法结构引入到手语识别中,提出了一种利用句法分析对手语句子识别结果进行整体合理性分析的方法。该方法首先将手语词根序列转化为手语词序列并进行相应的词性标注,然后对常见的手语例句进行句法规则总结,使用分层句法规则匹配方法,对句子进行多级判定。实验表明,使用句法规则可以有效的检测出句子中的识别错误问题。
二、具有不同数目状态结点的HMMs在中国手语识别中的应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、具有不同数目状态结点的HMMs在中国手语识别中的应用(论文提纲范文)
(1)汉语语音驱动的虚拟人手语翻译技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 语音识别研究现状 |
1.2.2 语音到手语翻译研究现状 |
1.3 论文工作及结构 |
第二章 基于DNN-HMM的语音识别 |
2.1 基于概率统计的语音识别总体结构 |
2.2 MFCC音频特征 |
2.3 基于GMM-HMM的声学模型 |
2.3.1 隐马尔可夫模型HMM |
2.3.2 混合高斯模型GMM |
2.3.3 用于语音识别的GMM-HMM模型 |
2.4 基于1D-Google的声学模型 |
2.5 实验结果与分析 |
2.6 本章小结 |
第三章 基于滑动窗口注意力机制的端到端语音识别 |
3.1 编码-解码神经网络结构 |
3.1.1 循环神经网络 |
3.1.2 基于LSTM的编码器和解码器 |
3.2 CTC在序列到序列模型中的应用 |
3.3 基于滑动窗口注意力机制的序列到序列语音识别模型 |
3.4 实验结果与分析 |
3.5 本章小结 |
第四章 汉语语序到手语语序的虚拟人手语翻译 |
4.1 汉语与手语语法差异 |
4.2 带注意力机制的编码-解码机器翻译模型研究 |
4.3 基于WebGL的虚拟人手语翻译系统 |
4.3.1 虚拟手语词汇动画 |
4.3.2 翻译系统搭建 |
4.4 虚拟人手语翻译综合实验 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
在学期间取得的科研成果和科研情况说明 |
致谢 |
(2)基于3D CNN和注意力机制的手语识别方法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 基于传统方法的手语识别 |
1.2.2 基于深度学习方法的手语识别 |
1.3 研究内容与创新点 |
1.4 论文章节安排 |
第二章 关键技术 |
2.1 传统手语识别方法 |
2.1.1 基于支持向量机(SVM)的识别方法 |
2.1.2 基于动态规整(DTW)的识别方法 |
2.1.3 基于隐马尔可夫模型(HMM)的识别方法 |
2.2 基于深度学习的手语识别方法 |
2.2.1 双流卷积神经网络 |
2.2.2 循环神经网络 |
2.2.3 三维卷积神经网络 |
2.3 本章小结 |
第三章 基于三维残差卷积网络的手语识别 |
3.1 引言 |
3.2 算法概述 |
3.3 基于三维卷积网络的识别算法 |
3.3.1 等时间随机间隔采样 |
3.3.2 三维残差网络模型 |
3.3.3 损失函数 |
3.4 实验结果与分析 |
3.5 本章小结 |
第四章 基于全局-局部注意力机制的手语识别 |
4.1 引言 |
4.2 注意力机制 |
4.3 方法概述 |
4.4 基于全局-局部注意力的手语识别 |
4.4.1 手语行为分析 |
4.4.2 MGRSS算法输入 |
4.4.3 基于目标检测的局部聚焦 |
4.4.4 弱监督特征编码网络 |
4.4.5 数据融合 |
4.5 实验结果与分析 |
4.5.1 数据集 |
4.5.2 实验设置与方法评估 |
4.5.3 结果与分析 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 问题与展望 |
参考文献 |
致谢 |
攻读硕士期间发表的学术论文与取得的研究成果 |
(3)面向大词汇量的中国手语识别方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1. 研究背景及意义 |
1.2. 国内外研究现状 |
1.2.1. 静态手势识别 |
1.2.2. 孤立词手语识别 |
1.2.3. 连续手语识别 |
1.3. 本文主要研究内容及结构安排 |
第2章 神经网络基础 |
2.1. 人工神经网络 |
2.2. 卷积神经网络 |
2.2.1. 基本结构 |
2.2.2. 常用的CNN模型 |
2.3. 循环神经网络 |
2.3.1. RNN的基本结构 |
2.3.2. RNN存在的问题 |
2.3.3. RNN的变体 |
2.3.4. RNN扩展和改进模型 |
2.4. 本章小结 |
第3章 基于空时关键信息的中国手语识别方法研究 |
3.1. 引言 |
3.2. 方法介绍 |
3.2.1. 空间关键信息提取 |
3.2.2. 时间关键信息提取 |
3.2.3. 手语子词单元 |
3.2.4. 基于编码-解码网络的手语识别 |
3.2.5. 基于模型融合的手语识别 |
3.3. 实验结果 |
3.3.1. 数据集 |
3.3.2. 实验结果与分析 |
3.4. 本章小结 |
第4章 基于边界自适应编码网络的中国手语识别方法研究 |
4.1. 引言 |
4.2. 方法介绍 |
4.2.1. 基于边界自适应编码器的手语识别 |
4.2.2. 基于窗口注意模型的编码器-解码器 |
4.3. 实验内容 |
4.3.1. 实验设置 |
4.3.2. 实验结果和分析 |
4.4. 本章小节 |
第5章 基于改进的连接时间分类约束的中国手语识别方法研究 |
5.1. 引言 |
5.2. 方法介绍 |
5.2.1. 连接时间分类 |
5.2.2. 尖峰问题 |
5.2.3. 改进的加权CTC模型 |
5.2.4. 改进的基于长度信息约束的CTC模型 |
5.2.5. 基于改进CTC的手语识别 |
5.3. 实验结果 |
5.4. 本章小结 |
第6章 总结与展望 |
6.1. 全文内容总结 |
6.2. 未来研究工作展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(4)中国手语实时识别系统研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 数据的获取 |
1.2.2 传统识别方法 |
1.2.3 基于隐马尔可夫模型的识别方法 |
1.2.4 基于深度学习的识别方法 |
1.3 本文的主要研究内容和章节安排 |
1.3.1 研究内容 |
1.3.2 章节安排 |
第二章 中国手语数据集的创建 |
2.1 引言 |
2.2 现有公开手语数据集 |
2.2.1 Cha Learn Looking at People |
2.2.2 RWTH-PHOENIX Weather |
2.3 中国手语数据的采集 |
2.4 数据的整理和标定 |
2.5 本章小结 |
第三章 数据的预处理与模型的创建 |
3.1 引言 |
3.2 帧间差分法降帧处理 |
3.3 图像的光流计算 |
3.4 特征提取与模型创建 |
3.4.1 隐马尔可夫模型 |
3.4.2 循环神经网络 |
3.4.3 三维卷积神经网络 |
3.5 实验与分析 |
3.5.1 光流计算实验结果对比 |
3.5.2 不同模型在测试集上的表现和分析 |
3.6 本章小结 |
第四章 手语实时识别系统 |
4.1 引言 |
4.2 人机交互界面 |
4.3 运动检测 |
4.4 头部和手部检测 |
4.4.1 Faster R-CNN |
4.4.2 YOLO-V3 |
4.5 实验与分析 |
4.5.1 头部和手部检测的结果和分析 |
4.5.2 实时手语识别的结果和分析 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 全文总结 |
5.2 研究展望 |
参考文献 |
致谢 |
攻读硕士学位期间已发表或录用的论文 |
(5)聋哑人手语识别关键技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.1.1 聋哑人手语识别的社会现实意义 |
1.1.2 聋哑人手语识别对人机交互研究的应用价值 |
1.1.3 聋哑人手语识别对拓宽教育技术学发展路径的实践意义 |
1.2 研究现状 |
1.2.1 借助可穿戴设备的手语识别研究 |
1.2.2 基于计算机视觉的手语识别方法 |
1.3 问题的提出 |
1.3.1 手语识别和手势识别的关系 |
1.3.2 聋哑人手语识别亟待解决的问题 |
1.3.3 本研究聚焦的关键问题 |
1.4 本文的主要贡献和论文结构 |
1.4.1 论文的主要贡献 |
1.4.2 论文结构 |
第2章 聋哑人手语识别相关基础 |
2.1 深度神经网络基础 |
2.1.1 卷积神经网络 |
2.1.2 循环神经网络 |
2.2 手语数据的采集 |
2.2.1 采集设备 |
2.2.2 数据采集系统开发 |
2.2.3 数据采集方案 |
2.3 本章小结 |
第3章 基于多模态数据的3D卷积神经网络手语识别 |
3.1 概述 |
3.2 相关研究 |
3.2.1 基于传统机器学习的手语识别方法 |
3.2.2 基于深度学习的手语识别方法 |
3.3 方法介绍 |
3.3.1 多模态数据的应用 |
3.3.2 数据预处理 |
3.3.3 模型架构 |
3.4 实验结果与分析 |
3.4.1 数据集SLVM实验与分析 |
3.4.2 数据集SKIG实验与分析 |
3.5 本章小结 |
第4章 融合宽残差和长短时记忆网络的手语识别 |
4.1 概述 |
4.2 相关问题 |
4.2.1 残差网络的演变及相关研究 |
4.2.2 深度学习融合框架的应用 |
4.3 方法介绍 |
4.3.1 三维卷积神经网络模块 |
4.3.2 双向可卷积LSTM网络模块 |
4.3.3 宽残差模块 |
4.4 实验结果与分析 |
4.4.1 在IsoGD数据集上的实验 |
4.4.2 在SLVM数据集上的实验 |
4.4.3 在SKIG数据集上的实验 |
4.5 本章小结 |
第5章 基于注意力机制的连续手语识别 |
5.1 概述 |
5.2 相关问题 |
5.2.1 注意力机制原理及其应用 |
5.2.2 视频描述的借鉴意义 |
5.2.3 连续手语识别 |
5.3 方法介绍 |
5.3.1 连续手语分割 |
5.3.2 关键词识别 |
5.4 实验结果与分析 |
5.4.1 在IsoGD数据集上的实验 |
5.4.2 在ConGD数据集上的实验 |
5.4.3 在Montalbano数据集上的实验 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 论文总结 |
6.2 未来展望 |
参考文献 |
攻读博士期间发表的论文 |
攻读博士期间申请的专利 |
攻读博士期间参与的课题 |
致谢 |
(6)基于Kinect的非特定人连续中国手语识别(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 手语识别的研究现状 |
1.2.1 独立词手语识别研究现状 |
1.2.2 连续手语识别研究现状 |
1.2.3 非特定人手语识别研究现状 |
1.3 目前存在的问题 |
1.4 本文主要研究内容 |
1.5 章节安排 |
第二章 SDUSign连续中国手语数据集 |
2.1 Kinect简介 |
2.1.1 Kinect主要功能介绍 |
2.1.2 Kinect应用领域 |
2.2 SDUSign数据集 |
2.3 本章小结 |
第三章 数据预处理及特征提取 |
3.1 手语数据预处理 |
3.1.1 手掌分割 |
3.1.2 运动轨迹数据预处理 |
3.2 轨迹特征提取 |
3.2.1 重心位置特征 |
3.2.2 球坐标位置特征 |
3.3 手形特征提取 |
3.3.1 方向梯度直方图特征 |
3.3.2 面积比例特征 |
3.4 基于不同特征的手语识别实验结果 |
3.4.1 基于不同特征的独立词手语识别实验结果 |
3.4.2 基于不同特征的连续手语识别实验结果 |
3.5 本章小节 |
第四章 非特定人连续中国手语识别 |
4.1 连续手语识别算法概述 |
4.2 连续手语分割 |
4.2.1 条件随机场原理 |
4.2.2 潜在动态条件随机场 |
4.2.3 连续手语语句分割建模 |
4.3 独立词识别 |
4.3.1 HMM原理介绍 |
4.3.2 独立词识别建模 |
4.4 结果优化 |
4.4.1 词长度约束 |
4.4.2 语法约束 |
4.4.3 结果评估 |
4.5 实验结果分析 |
4.5.1 参数设置 |
4.5.2 连续手语实验结果分析 |
4.5.3 不同约束的有效性评价 |
4.5.4 对比实验 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 全文总结 |
5.2 展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表的论文 |
学位论文评阅及答辩情况表 |
(7)基于肌电模式的中国手语识别研究及康复应用探索(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 手势动作识别技术概述 |
1.1.1 手势动作识别研究意义 |
1.1.2 两种主要的手势动作感知方法 |
1.2 基于肌电信号的手势识别技术 |
1.2.1 肌电信号产生的生理学基础 |
1.2.2 肌电信号的检测方式 |
1.2.3 肌电信号可用于手势识别的依据 |
1.3 基于SEMG信号的手势动作识别研究现状 |
1.3.1 手语识别研究 |
1.3.2 康复工程研究 |
1.4 基于SEMG的手势识别研究面临的主要问题 |
1.5 本论文的研究内容和研究意义 |
1.6 论文的组织结构 |
第二章 基于表面肌电模式分类中国手语字母 |
2.1 引言 |
2.2 SEMG信号的采集与去噪 |
2.2.1 SEMG信号采集及预处理 |
2.2.2 基于独立成分分析和自适应滤波的心电噪声去除 |
2.3 基于SEMG信号的手指语动作识别 |
2.3.1 活动段检测 |
2.3.2 特征提取 |
2.3.3 基于线性判别的手语动作分类 |
2.4 基于SEMG的30类中国手语字母动作规范 |
2.5 心电噪声去除实验与结果分析 |
2.5.1 实验数据 |
2.5.2 去噪结果及分析 |
2.6 中国手语字母动作识别及规范实验与结果分析 |
2.6.1 实验数据 |
2.6.2 中国手语字母动作识别系统 |
2.6.3 中国手语字母动作规范识别实验结果及分析 |
2.7 本章小结 |
第三章 融合表面肌电和加速度信息的中国手语孤立词识别 |
3.1 引言 |
3.2 融合SEMG和ACC信息的手语孤立词识别方法 |
3.2.1 活动段数据分割 |
3.2.2 特征提取 |
3.2.3 基于决策树的手语孤立词识别 |
3.3 小规模单手孤立手势词识别实验和结果 |
3.3.1 数据采集方案 |
3.3.2 实验结果分析 |
3.4 中等规模双手孤立手势词识别实验和结果 |
3.4.1 数据采集方案 |
3.4.2 实验结果分析 |
3.5 本章小结 |
第四章 基于要素信息的词汇量可扩展的连续中国手语识别 |
4.1 引言 |
4.2 基于要素的连续中国手语识别方案 |
4.2.1 中国手语动作要素的定义 |
4.2.2 基于要素的分类器设计 |
4.3 基于语言学的连续中国手语句子识别方案 |
4.3.1 基于N-gram模型的中国手语句子纠错 |
4.3.2 基于句法模型的中国手语句子检错 |
4.4 实验与结果分析 |
4.4.1 实验方案 |
4.4.2 基于要素的中国手语识别结果与分析 |
4.4.3 中国手语句子连续识别结果与分析 |
4.5 本章小结 |
第五章 基于肌电模式分类的康复应用探索 |
5.1 引言 |
5.2 中风病人的上肢动作肌电模式识别方法 |
5.2.1 高密度电极配置 |
5.2.2 数据预处理和分割 |
5.2.3 特征提取和降维 |
5.2.4 分类决策 |
5.2.5 性能评估和统计分析 |
5.3 肌电模式分类的实用性研究方案 |
5.3.1 电极空间滤波 |
5.3.2 电极通道选择 |
5.3.3 SEMG窗长度研究 |
5.3.4 SEMG采样率研究 |
5.3.5 SEMG高通滤波截止频率研究 |
5.4 实验结果和分析 |
5.4.1 受试者和数据采集 |
5.4.2 肌电模式分类结果分析 |
5.4.3 实用性研究结果分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 主要工作总结 |
6.2 论文创新点 |
6.3 研究展望 |
参考文献 |
在读期间发表的学术论文与取得的研究成果 |
致谢 |
(8)基于表观建模的中国手语识别技术研究(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 基于表观建模的中国手语识别研究内容 |
1.1.1 手语识别的定义和分类 |
1.1.2 手的检测、跟踪与分割 |
1.1.3 手语手势特征提取 |
1.1.4 分类器设计 |
1.1.5 手语的识别 |
1.2 国内外研究发展状况 |
1.2.1 中国手语识别研究简介 |
1.2.2 国外手语识别研究简介 |
1.3 本文主要工作 |
1.4 论文内容安排 |
第二章 复杂背景视频图像中手语手势的提取 |
2.1 引言 |
2.2 Kinect |
2.3 基于DI_CamShift算法的手势跟踪 |
2.3.1 MeanShift算法 |
2.3.2 CamShift算法 |
2.3.3 DI_CamShift算法 |
2.3.4 基于DI_CamShift的跟踪实验 |
2.4 基于改进肤色分割算法的手势提取 |
2.4.1 基于深度图像信息的椭圆边界肤色模型 |
2.4.2 基于深度积分图的二维OTSU算法 |
2.4.3 改进的OTSU算法 |
2.5 手势提取实验 |
第三章 手语完备特征提取 |
3.1 引言 |
3.2 特征提取 |
3.2.1 SURF特征 |
3.2.2 Gabor特征 |
3.2.3 颜色直方图 |
3.2.4 BoW特征表示 |
3.3 基于CCA的特征融合 |
第四章 多核SVM学习 |
4.1 引言 |
4.2 统计学习理论 |
4.3 SVC算法 |
4.4 SVR方法 |
4.5 两类线性可分支持向量机 |
4.6 基于核方法的两类线性可分SVM |
4.7 核函数 |
4.8 基于BoW的多核SVM |
4.8.1 基于单核SVM的手语识别 |
4.8.2 H Kernel |
4.8.3 基于BoW的语义核函数 |
第五章 基于表观建模的手语识别 |
5.1 引言 |
5.2 手语库 |
5.3 手语识别 |
5.3.1 手语识别流程 |
5.3.2 手势检测 |
5.3.3 手势跟踪 |
5.3.4 手势分割 |
5.3.5 手语BoW构建 |
5.3.6 混合核函数SVM训练学习 |
5.3.7 手语识别结果分析 |
总结与展望 |
参考文献 |
攻读博士学位期间取得的科研成果 |
致谢 |
作者简介 |
(9)基于手势数据分析的地方手语的合成研究(论文提纲范文)
摘要 |
Abstract |
第一章 引言 |
1.1 课题的研究背景和意义 |
1.2 现代手语动画合成系统的开发与研究 |
1.3 手语合成系统的关键技术 |
1.4 主要研究内容 |
第二章 手语的语言学研究 |
2.1 引言 |
2.2 手语与手语语言学 |
2.3 地方手语的研究和意义 |
2.4 上海手语的研究 |
2.5 小结 |
第三章 基于四元数的手势动作平滑改进 |
3.1 引言 |
3.2 关键帧插值算法 |
3.3 相关概念 |
3.3.1 手势数据特点 |
3.3.2 四元数及其相关计算 |
3.4 基于四元数的手腕动作平滑 |
3.4.1 肘、腕关节转动特点 |
3.4.2 腕关节的四元数插值 |
3.5 基于手臂旋转角度差距的插值算法 |
3.6 实验结果 |
3.6.1 腕关节四元数插值的实验结果 |
3.6.2 基于手臂旋转角度差距的插值算法实验结果 |
3.7 小结 |
第四章 地方手语合成方法的研究 |
4.1 引言 |
4.2 中国手语手形数据的聚类 |
4.2.1 手势数据的分析 |
4.2.2 手形数据的分段 |
4.2.3 手形分段实验结果 |
4.2.4 基于手形数据分段的DTW 算法 |
4.2.5 基于手形数据分段的ISODATA 聚类算法 |
4.3 手臂状态的分类 |
4.4 基于手形和手臂状态结合的上海手语合成 |
4.5 上海手语手势数据库的建立 |
4.6 基于中国手语手势数据的地方手语合成系统构成 |
4.7 结论和进一步研究 |
第五章 结论 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
附录A(攻读硕士学位期间参与的科研项目和研究成果) |
(10)基于N-gram模型和句法模型的连续中国手语识别方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 手语识别的研究背景和意义 |
1.2 国内外手语识别研究现状 |
1.2.1 基于计算机视觉的手语手势识别研究 |
1.2.2 基于数据手套的手语手势识别研究 |
1.2.3 基于表面肌电信息的手语手势识别研究 |
1.3 手语识别中存在的问题 |
1.4 课题研究内容与文章 结构 |
1.4.1 课题研究内容 |
1.4.2 文章 结构安排 |
第二章 基于加速度与表面肌电信息融合的中国手语词根连续识别 |
2.1 基于词根的手语手势识别相关研究 |
2.2 基于加速度与表面肌电信息融合的中国手语词根动作识别方法 |
2.2.1 动作信号采集与预处理 |
2.2.2 词根动作数据分割 |
2.2.3 词根数据段特征提取 |
2.2.4 基于隐马尔科夫模型的手语词根识别方法 |
2.2.5 采用多级决策树的手语词根识别方法 |
2.3 本章小结 |
第三章 基于N-gram 模型的中国手语词根动作识别纠错方法 |
3.1 引言 |
3.2 N 元语法模型 |
3.2.1 贝叶斯理论 |
3.2.2 N-gram 模型简介 |
3.2.3 N-gram 模型参数估计 |
3.2.4 N-gram 的平滑 |
3.3 基于N-gram 的词根接续关系检错方法 |
3.4 词根纠错方法简介 |
3.5 本章小结 |
第四章 基于句法模型的中国手语检错方法研究 |
4.1 手语词根组词 |
4.2 手语词词性标注 |
4.3 句法规则总结及使用 |
4.3.1 句法规则总结 |
4.3.2 基于层叠有限状态自动机的句法分析 |
4.4 本章小结 |
第五章 实验结果与讨论 |
5.1 数据采集实验设置 |
5.2 建立N-gram 模型 |
5.3 手语识别实验结果与讨论 |
5.4 句法模型分析实验 |
5.5 本章小结 |
第六章 总结与展望 |
参考文献 |
在读期间发表的学术论文与取得的其他研究成果 |
致谢 |
四、具有不同数目状态结点的HMMs在中国手语识别中的应用(论文参考文献)
- [1]汉语语音驱动的虚拟人手语翻译技术研究[D]. 桂彬彬. 天津理工大学, 2021(08)
- [2]基于3D CNN和注意力机制的手语识别方法研究[D]. 张群. 青岛科技大学, 2020(01)
- [3]面向大词汇量的中国手语识别方法研究[D]. 黄世亮. 中国科学技术大学, 2020(09)
- [4]中国手语实时识别系统研究[D]. 赵凯. 上海交通大学, 2020(01)
- [5]聋哑人手语识别关键技术研究[D]. 梁智杰. 华中师范大学, 2019(01)
- [6]基于Kinect的非特定人连续中国手语识别[D]. 冯欣. 山东大学, 2018(01)
- [7]基于肌电模式的中国手语识别研究及康复应用探索[D]. 李云. 中国科学技术大学, 2013(05)
- [8]基于表观建模的中国手语识别技术研究[D]. 杨全. 西北大学, 2013(12)
- [9]基于手势数据分析的地方手语的合成研究[D]. 周佳. 湘潭大学, 2011(04)
- [10]基于N-gram模型和句法模型的连续中国手语识别方法研究[D]. 田建勋. 中国科学技术大学, 2011(09)