一、一种用于强噪声环境下语音识别的含噪Lombard及Loud语音补偿方法(论文文献综述)
文佳唯[1](2019)在《基于混合式学习的师范生教学语言技能训练研究》文中提出在素质教育的全面推进过程中,国家越来越重视师范教育和师资力量的培养与发展。教学语言技能作为教师最基础的教学技能之一,理应也是师范教育培养计划中关注的重点。然而,传统的教学语言技能训练主要集中于时间有限且资源缺乏的课堂学习,其教学方式早已无法满足当前师范生提高教学语言技能水平的实际需求。因此,变革教学方式成为推动高校师范生教学语言技能水平提升的重要途径。2018年,教育部等出台的《教师教育振兴行动计划》中倡导要充分利用信息技术变革,推进教师教育信息化教学服务平台建设和应用,推动以自主、合作、探究为主要特征的教学方式变革。在此大背景下,混合式学习与其倡导的要旨不谋而合,它主张把传统教学的优势与信息化教学的优势结合起来,二者优势互补,进而达到最优化的教学效果。于是从以上角度出发,本研究尝试将混合式学习的理念应用于教学语言技能训练,设计基于混合式学习的教学语言技能训练方案流程,以期能有效解决当前师范生教学语言技能训练中存在的不足,进而提高师范生的教学语言技能水平。首先,本文通过文献研究,对语言技能、教学语言技能及混合式的概念进行界定,并梳理了教学语言技能、混合式学习的国内外研究进展。在实践共同体、建构主义学习理论等研究理论的指导下,结合前期现状调查问卷中存在的实际问题及原因,提出基于混合式学习的教学语言技能训练方案。其次,该方案整体包含基础理论学习阶段和单项技能训练阶段:以混合式学习理念为指导,以师范生教学语言技能训练过程为核心,在理论学习阶段引入小组汇报来设计师生线上线下的学习活动,在单项技能训练阶段则根据课堂训练的需要对相关的在线资源进行随时调用。同时在进一步细分学习活动的基础上,将两个阶段划分成课前、课中、课后环节,课前和课后的活动主要是以微信公众平台为主,课中则主要是在微格教室或多媒体教室中进行。三个环节中将学习资源、学习活动、学习方式进行有机的融合,不仅拓展了学生的学习时间和空间,还帮助学习者更容易把握教学语言技能的相关理论及运用技巧。再次,运用行动研究法,将所构建的基于混合式学习的师范生教学语言技能训练方案流程应用于语速、音量技能的实际教学中。在实践教学中,通过构建真实的教学情景,训练学生对教学中语速、音量技能的灵活控制。实践之后,对学习过程进行不断的反思与改进。最后,通过在线学习数据、实验对比数据及问卷调查数据统计,全方位掌握学习者在训练过程中的学习参与情况、学习效果及对混合式学习训练方案应用的态度。主要得出以下结论:(1)依托微信公众平台能有效支持混合式学习的开展。通过微信公众平台学习与课堂训练的有机结合,不仅可以充分发挥学生的主体性和教师的主导性,还可以让师生之间、生生之间的协作更加密切。(2)对快语速组、慢语速组、低音量组及高音量组分别采用“诗歌朗诵法”、“绕口令法”、“Lombard效应法”、“配乐朗诵法”。经过实验对比数据表明:其一,诗歌朗诵法对快语速组师范生有减慢语速的作用,但在该方式干预下不存在性别、年级的显着差异;其二,绕口令法对慢语速组师范生有提高语速的作用,在该方式干预下存在年级因素的显着性差异;其三,Lombard效应法下模仿宽嗓子的歌唱家唱歌对低音量组师范生有提高音量的作用,在该方式干预下存在年级因素的显着性差异;其四,配乐朗诵法对高音量组师范生有降低音量的作用,根据实际实验情况,师范生在此方式下更容易理解转换音量大小的技巧。(3)学习者对基于微信公众平台的混合式学习是持认可态度的,对混合式学习资源及学习活动设计也给予了高度的肯定,无论是微信公众平台还是课堂训练,学习者都表现出浓厚的兴趣和积极性,取得了良好的学习效果。与此同时实践教学的开展不仅进一步完善了学生的教学语言技能水平,还提高了学习者的自主学习与协作学习等能力。
郑志辉,向小军,赵乐[2](2018)在《基于语音实现人机对话的空调控制器研究开发》文中认为空调季节性比较明显,很多用户都有换季时找不到遥控器的经历,或者长期没有使用遥控而没有取出电池造成电池漏夜而损坏遥控器的情况。智能与舒服性功能已成为空调的首选附加功能,本文是研究一种基于语音实现人机对话的空调器,公开一套完整的智能语音交互,让语音作为人机对话的界面,人机交互更智能更具人性化。本文的交互逻辑,设计有离线唤醒,设备大部分时间处于休眠状态,用户说唤醒词才能将设备从休眠状态唤醒,这种设计有效避免语音控制误操作的风险。本文的目的在于公开一种空调器用语音控制系统,提供一种语音交互界面,VUI(Voice User Interface)作为一种新的人机交互界面,将完全取代传统遥控器。
毛永刚[3](2012)在《基于相关向量机的说话人判别研究》文中进行了进一步梳理说话人判别是人工智能领域中的重要应用分支之一,因其便捷性、非接触性和经济性而广受追捧,已经广泛应用于司法判定、网银服务、安防监测以及游戏娱乐等场合。当前,说话人判别技术已从实验室环境逐步走向实践应用阶段;评价说话人判别系统的标准不再是单纯的识别率,而是要求模型构建效率、系统运行速度、算法扩展能力以及识别率全面提升。本文的主要工作是针对样本量有限的输入语音,采用效果较好的核函数分类工具,进行说话人鉴别系统的设计与实现。通过采用添加的训练算法样本,实现了模型的快速构建,大型矩阵的逆操作规避了,简化训练过程的计算量。使得基于帧的说话人鉴别任务得以实现,且其算法运行效率也得到了大幅度的提升。根据实际生物识别技术的应用需求,将相关向量机以及多元扩展模型应用于实际声纹锁中,设计并实现出具有更高识别率以及更高实时性的识别锁。本论文将多元RVM应用于声纹锁中,并用程序进行了系统的开发,应用系统主要模块包括:语音输入模块、语音信号预处理模块、语音特征提取模块、说话人识别模块、说话人判决模块、数据库管理与接口模块等。使用该算法可以在一定程度上提升系统的准确率和实时性。
郑泽萍[4](2011)在《基于保局部核多元RVM的说话人识别方法研究》文中进行了进一步梳理随着现代社会经济和科学技术的快速发展,人们活动领域不断扩大,身份识别技术在当今社会生活和经济活动方面显得越来越重要。传统的密码、智能卡或动态口令等具有先天性安全缺陷的身份认证手段已经远远无法满足大众的需求,人们就逐渐把目光转向了具有唯一性和终身不变性的基于生物特征的个人身份识别技术。其中说话人识别技术因其独特的方便性、经济性和准确性,在生物识别领域中获得广阔应用。虽然说话人识别技术的研究工作已经历经多年,但其技术还不能满足日益增加的性能要求,仍需不断提高。本文以小样本语料库为应用对象,深入研究与文本无关的说话人识别系统,具体工作可归纳如下:(1)介绍说话人识别的基本原理,包括预处理、特征参数提取、模型构建过程等。(2)将相关向量机(Relevance Vector Machine,RVM)应用于说话人识别系统。RVM采用稀疏性先验概率分布,使模型具有高度稀疏性,并且在模型训练过程中采用快速边缘最大化算法,规避了大型矩阵逆操作,减少计算量,可灵活应用于实时性要求较高的说话人识别场合。(3)针对语音数据本身具有的复杂分布结构,在核函数中引入相似度因子构成保局部核函数,保留了数据内部局部结构,并将保局部核应用于RVM,以提高分类精度。(4)针对说话人多分类问题,提出一种多元RVM(Multi-RVM,MRVM)模型,并采用保局部核,形成一个基于保局部核的多元相关向量机模型。新模型简化了最终分类模型,一次成型,更加方便、直观。(5)将基于保局部核多元相关向量机的说话人识别模型应用于声纹门控系统,可以快速处理待识别者语音,正确控制门锁系统的开关。最后,对论文的研究工作进行了总结,并对进一步的研究工作提出了一些展望。
李伟娟[5](2010)在《基于智能群体和盲源分离的说话人识别》文中提出说话人识别在干净语音条件下已取得不错的识别率,但由于噪声的存在,语音信号会发生畸变,造成训练环境与测试环境的不匹配,严重影响了系统的识别率。如何从复杂的噪声背景中提取反映说话人个性特征的语音参数和设计行之有效的分类器是说话人识别应用于实际的一个难点。针对上面存在的问题,本文从噪声环境下语音参数的提取和分类器的设计这两个方面出发,提出自己的解决方案,并通过实验来验证其可行性。本文的主要工作包括:1.针对说话人识别中混合噪声环境影响语音识别准确率的问题,考虑将ICA算法进行改进并应用于语音信号的去噪过程,基于独立分量分析的盲源分离算法的传统实现都是基于梯度的,其收敛性能及求解性能均取决于学习步长的选择,而且收敛速度较慢。为了克服这些缺点,提出一种粒子群算法改进的独立分量分析算法,对语音特征参数MFCC系数进行增强。试验结果表明,改进的ICA算法可以快速有效地得到BSS的最优解,能有效地抑制环境噪声,从而提高语音质量。2.针对支持向量机在大样本情况下训练速度慢的缺点,引入权重最优位置策略改进量子粒子群优化算法,通过改进的Michigan编码方案对语音参数进行编码,构造分类规则适应度函数,实现基于加权量子粒子群的分类器设计。在说话人识别中的应用结果表明,该分类器具有较好的抗噪性能和较高的识别速度仿真结果表明改进的WQPS-classifier和其它分类器相比,有较好的抗噪性能和识别速度。
郑建炜[6](2010)在《基于核方法的说话人辨认模型研究》文中提出说话人识别技术由于其独特的便利性、精确性和经济性,被认为是最自然的生物认证技术,在安全监控、司法鉴定、电子侦听、金融服务等方面都具有广泛的应用前景。当前,说话人识别系统开发已逐渐从理论研究转向实际应用,对其要求也随着应用环境的变更而越来越高,不仅期望具有极高的识别率,还要具有较高的实时性,此外,系统构建便捷性、模型扩展能力等都不容忽视。近十几年来,基于核函数的分类算法已成为模式识别领域的研究焦点,它有效克服了传统模式识别方法中局部极小和非完全统计分析的缺点,具有很强的非线性处理能力,而说话人识别系统中输入的语音特征参数正好是非线性的且局部特性复杂。因此,应用核分类模型于说话人识别时能够获得很好的效果。本文针对说话人识别中的辨认任务,以小样本语料库为应用对象,着重研究模型域的改进,提出具有各种优势的核分类方法。主要工作如下:1.深入分析当前主导的说话人识别模型GMM-UBM和SVM。产生性模型-高斯混合模型(GMM)一直作为说话人识别的基准技术,但其直接应用存在训练样本量需求过大的缺陷,而统一背景模型(UBM)可以削减目标说话人的输入数据,且效果更比单纯GMM优越。区分性模型-支持向量机(SVM)具有最大分类间隔、全局最优解、稀疏性能等优势,在小样本说话人识别应用中效果比GMM-UBM更佳。本文分别从原理、优缺点、融合策略、应用细节等几方面对两者作了细致地分析。通过说话人辨认实验表明,GMM-UBM模型的测试实时度稍逊,而两分类模型SVM的多元扩展能力较为薄弱。2.联合相关向量机与高斯混合模型进行说话人辨认。相关向量机(RVM)分类模型与SVM具有一致的判决公式,同样有很强的泛化能力,并且其稀疏性更好;此外,RVM使用概率输出克服了SVM二值结果的缺点,又无需进行繁琐的惩罚因子C计算。但是在与文本无关的话者辨别中,RVM模型构建过程却过于缓慢。本文将二元模型RVM引入说话人辨认领域,并采用快速训练算法进行基于帧的话者识别。为进一步提升模型构建速率,取GMM统计特征参数作为RVM的输入矢量,既能够有效地提炼话者个体性信息,解决大样本数据情形中的RVM训练问题,又结合了统计模型鲁棒性高和分辨模型辨别效果好的优点。实验结果表明,RVM与SVM模型扩展能力一致,识别率相仿,但测试实时性能明显优于SVM。3.提出多元核Logistic回归(MKLR)说话人辨认方法。虽然RVM与SVM都具有优秀的识别性能和测试实时度,但二元模型的本质使得两者都无法直接应用于说话人辨认。本文针对基于帧的与文本无关说话人辨认多分类目标和大训练样本的情况,将经典核Logistic回归(KLR)模型进行多元化变形,叠加L2惩罚因子,以提高模型泛化能力。把最优目标函数负对数Logistic公式对偶化,并利用序列最小优化算法进行模型训练,不仅保持了原KLR模型的强分辨能力,也加快了模型构建过程。实验结果表明,MKLR在辨认任务中无需进行繁复的多分类扩展,且识别率达到99.5%。4.提出概率稀疏型多元核Logistic说话人辨认方法(SMKLC)。MKLR的缺陷是测试速率低下,因此,本文对经典Logistic回归模型进行多元化扩展后,为参数叠加RVM中采用的稀疏性先验概率分布,在不引入新的先验信息性参数前提下使模型具有稀疏结果。模型训练采用自下向上贪婪算法,规避了大型矩阵逆操作,约简了训练过程计算量。说话人辨认实验结果表明,SMKLC在保持高识别性能的同时,其测试用时仅需0.0057秒/短语。5.提出保局部核Fisher鉴别说话人辨认方法(LWFDA)。结合核Fisher判别(KFD)方法与局部保持投影(LPP)两者的优势,将亲和因子引入KFD中的类内散度矩阵,保留KFD全局最优投影能力的同时,又凸现LPP的局部保持能力,对重叠(离群)样本与多态分簇样本都能实现有效的分类投影,并给出了快速求解算法,解决大样本训练时出现的内存溢出问题,以适应于说话人辨认。实验结果表明,LWFDA识别率与MKLR一致,测试用时较MKLR缩减了9.25%。6.提出增强型数据域描述说话人辨认方法(EDDD)。为适应开集的辨认任务,以支持向量域描述(SVDD)算法为基础,通过一种简易的形式引入数据间密度因子,使处于不同区域的数据对分类器的作用不再被同等对待,高密度区数据对分类支撑域的作用被强化,而低密区即呈零星分布的数据作用被削弱,结果使分类超球体自动靠近数据高密区而提高其识别性能。说话人辨认实验结果表明,EDDD模型的识别性能全面优于GMM。本文主要研究说话人辨认系统中的模型部分,提出或改进了各类基于核的分类方法,包括二元分类器、多元分类器、单类分类器、降维分类器等,它们各自都具有得天独厚的优势,能满足不同需求的说话人辨认系统。
王坚[7](2010)在《车载语音控制系统设计及DSP实现》文中指出从全球汽车产业发展现状来看,电子化和智能化已经成为当今汽车行业的流行主题,汽车制造商就智能语音技术在汽车控制中的应用已经达成了广泛的共识。它将为整个汽车产业链的拓展提供了新的广阔的增值空间。高性能的DSP芯片具有成本低、体积小、运算精度高、处理速度快等特点,被广泛地应用在军事、交通、办公等领域。因此,基于DSP的车载语音控制系统的研究也越来越受到人们的重视。本文首先简要介绍了语音识别的基本理论,概述了抗噪语音识别技术,然后对车载语音控制系统的硬件设计和软件实现做了详细的阐述,并在完成了系统设计的基础上研究了如何提高车载噪声环境下识别系统的鲁棒性问题。在TMS320C6713 DSK的硬件基础上,本系统根据实际的需要分别设计了输入模块、数据处理模块和输出模块。为了保证系统能够脱离计算机自动运行,本文采用了Flash Boot加载方式实现了DSP的自举。本系统最终实现的功能是在TMS320C6713 DSK上识别出非特定人的12词控制命令,测试结果显示,在安静的实验环境下,系统的识别率能够达到98.52%。此外,本文针对车载噪声环境下的抗噪性能作了具体的算法分析,在对比传统的几种特征参数的基础上,采用了一种新的加性倒谱失真模型和基于最小均方误差准则下MFCC特征参数对车载环境控制系统进行识别测试,实验表明对于车载噪声,这种改进的方法对提高系统的识别率有一定的效果,具有较好的鲁棒性。
郭皓婷[8](2009)在《基于声纹识别技术的应用难点研究》文中提出声纹识别技术是生物特征识别技术的一种,由于声音具有远程采集方便的特点,已经日益成为当前的研究热点之一。本文针对声纹识别技术的应用背景和巨大的市场前景,分析研究现状,探究了该技术的研究难点,并对应用前景作了展望。
李燕萍[9](2009)在《说话人辨认中的特征参数提取和鲁棒性技术研究》文中指出语音是人类获取信息的主要来源之一,也是最方便、最有效、最自然的交流工具。语音识别是研究使机器能准确地听出人的语音内容的问题,其目的是方便人与机器的交流。说话人识别技术是语音识别的一种特殊形式,其目的不是识别说话人讲的内容,而是识别说话人是谁。说话人识别技术在近三十多年的时间里取得了很大的进步,这种技术的应用为人类的日常生活带来很大的便利。但是,随着说话人识别技术实用化的不断深入,不同应用领域对该技术的要求越来越高。一方面,说话人发音的多变性,要求提取适合说话人识别的特征以保证系统的性能;另一方面,噪声环境、训练与测试数据的时长以及通信信道的失真等问题都严重影响到说话人识别系统在实际应用中的性能。本论文针对文本无关的说话人辨认任务,在说话人个性特征提取和噪声鲁棒性技术两个方面进行了研究,主要内容包括:1.提出基于特征变换和模糊最小二乘支持向量机的辨认算法。针对最小二乘支持向量机模型在语音数据大样本输入下的局限性,一方面对传统的梅尔倒谱特征MFCC进行基于高斯混合模型的特征变换,解决训练最小二乘支持向量机的过程中需要求解的线性方程组的变量数目与特征数量紧密相关的问题;另一方面,通过引入模糊隶属度函数,处理了最小二乘支持向量机从二分类扩展到说话人辨认的多分类时存在的不可分数据问题。高斯混合模型作为一种经典的生成式模型,不但能有效减少数据量,起到压缩数据的作用,而且由于聚类变换后的结果是高斯混合模型的均值矢量集,能够很好地代表说话人的特征,起到突出说话人信息的作用。基于特征变换和模糊最小二乘支持向量机的辨认算法结合了高斯混合模型在拟合数据方面的优势和最小二乘支持向量机在分类辨别方面的优势,从而改善系统系统的性能。2.提出基于高斯混合模型的感知特征补偿变换的抗噪声算法。从人类听觉感知特性出发,基于感知线性预测模型从不同层次模拟了人耳的听觉特性,从语音的频谱细节考虑,去除了会引起说话人信息平滑的临界带频谱分析,提取改进的感知对数面积比系数MPLAR作为说话人特征,具有良好的可分性;并在此基础上,根据说话人识别的声学特性,从匹配得分的整体考虑,对模型输出的似然得分引入非线性变换,拉大目标模型与非目标模型的得分比,拉近同一模型各帧得分值,使得各模型的得分值不仅与当前时刻的似然概率有关,还与之前的K个时刻的似然概率有关,解决了MPLAR在不同类型噪声条件下的抗噪性能问题。基于感知特征和模型补偿的说话人辨认算法不仅提供了可分性更好的特征,并且在模型匹配阶段从整体得分的统计特性出发,得到稳定的模型得分,增强了系统在噪声环境下的识别能力。3.提出基于自适应频率规整的鲁棒性辨认算法。经典的梅尔倒谱特征和感知线性预测特征从人类的听觉感知机理出发,模拟了人类听觉系统对声音频率的感知特性,改进了说话人的识别性能,但是这种处理方式并没有对语义特征和说话人个性特征区别对待,而是在特征提取阶段笼统地降低了高频信息的比重。自适应频率规整算法是基于说话人信息在不同频带呈不均匀分布的原理,从语音生成的生理学角度分析人类在发音过程中的结构变化,从中获取携带说话人信息的生理特征,进而从频谱分析的层次对不同频带对说话人信息的贡献进行量化,指导设计了与Mel频率尺度不同的自适应频率尺度变换,在说话人信息贡献大的区域分配的滤波器个数增多,带宽变小,频率分辨率提高,而贡献小的区域分配的滤波器个数减少,带宽变大,频率分辨率降低,从而进行自适应的频谱滤波,提取区分性特征DFCC。并且针对应用到实际使用环境时存在的训练语音与测试语音失配的问题,对语音频谱进行逐帧逐频率点的预增强处理,去除噪声的干扰,进一步提高系统的鲁棒性。4.提出基于汉语元音映射的说话人辨认方法。该方法从汉语语音的特点出发,对基于汉语的说话人识别进行研究。由于汉语具有相对稳定的音节结构,并且其中的元音部分占据了主要的能量和时长,基于此,从汉语语音的特点出发,对汉语拼音的结构、发音特点进行分析,并且通过元音频谱对比、音素滑动分析、韵母分解实验和共振峰分析等,从短时帧角度将韵母中的元音部分分解为单元音音素的组合,结合大量语音学知识构建了汉语元音映射表,通过汉语元音映射,能够有效地分离语音信号中的语义信息和话者身份信息,将文本无关的说话人识别问题转化为与有限个单元音音素有关的识别问题,并由此衍生出新的说话人建模方法以及新的识别框架,在提高识别率的同时降低对训练和测试数据时长的依赖。在新的识别框架下,提出了一种基于仿生模式识别的说话人辨认算法,在训练阶段利用改进的最近邻覆盖算法为每个单元音音素建立有效的覆盖;在识别阶段根据待测元音帧是否落入对应覆盖区域进行判别,该算法在开集测试条件下对冒名者具有较好的分辨能力。
柳奇芳[10](2008)在《基于组合去噪方法的语音识别抗噪技术研究》文中研究表明随着科学的发展和计算机的普及,人们对与计算机的交流方式提出了更高的要求,这促进了语音识别技术的发展,并使之成为语音处理领域中的一个重要研究方向。目前,在实验室环境下,语音识别系统的识别率已经达到了很高的水平,也有一些产品出现,但是由于受现实环境噪声的影响,系统的识别率大幅度下降。因此,噪声是语音识别技术广泛实用化的最大障碍,对噪声环境下语音识别系统的研究也就变得尤为重要。目前的抗噪声技术主要分为三类:语音增强法、提取抗噪语音特征法和模型补偿法。由于环境噪声的种类和干扰程度的不同,通常难以使用一种单一的方法来获得令人满意的性能。随着抗噪声语音识别技术的发展,如何在实际的语音识别系统中将以上的技术合理地结合起来,使语音识别系统在不同的噪声环境中均能达到较高的性能,是抗噪声语音识别研究的一个重要方向。另外,近年来一些新的技术中采用了一些与其他领域的理论技术相结合的办法来提高性能。小波变换是八十年代末发展起来的一种新的时频分析方法,它在时、频两域都具有良好的局部化特性;并且在信号去噪领域获得了广泛的应用。本文详细研究了小波变换理论,分析了小波变换的特点,比较了几种常用小波去噪方法,重点研究了阈值去噪法。在此基础上,本文结合两种抗噪技术:语音增强技术与提取抗噪语音特征技术,并引入小波变换技术,提出了一种基于小波变换的组合去噪方法。该方法的基本原理是:含噪语音信号首先经过采用小波去噪方法中的阈值去噪法进行语音增强,实现了语音识别过程中的第一次去噪;语音特征参数提取阶段采用了基于小波变换的特征提取技术,实现了语音识别过程的第二次去噪。本文采用了仿真实验的方式,对比了该去噪方法与传统的去噪方法的去噪效果,通过分析得出的结果,证明了该去噪方法的有效性。
二、一种用于强噪声环境下语音识别的含噪Lombard及Loud语音补偿方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一种用于强噪声环境下语音识别的含噪Lombard及Loud语音补偿方法(论文提纲范文)
(1)基于混合式学习的师范生教学语言技能训练研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 教学语言研究现状 |
1.2.2 混合式学习研究现状 |
1.3 研究目标及意义 |
1.3.1 研究目标 |
1.3.2 研究意义 |
1.4 研究内容 |
1.5 研究思路及方法 |
1.5.1 研究思路 |
1.5.2 研究方法 |
1.6 概念界定与理论基础 |
1.6.1 相关概念界定 |
1.6.2 理论基础 |
2 师范生教学语言技能现状调查与分析 |
2.1 调研概况 |
2.1.1 调研目标 |
2.1.2 调研内容 |
2.1.3 调研方法 |
2.2 调查问卷数据及分析 |
2.2.1 师范生对教学语言技能的整体认知 |
2.2.2 师范生对教学语言技能运用的课堂认知 |
2.2.3 师范生对微格教学语言技能培养现状的认知 |
2.3 调查小结 |
2.3.1 总结问题 |
2.3.2 分析原因 |
2.3.3 后续解决思路 |
3 基于混合式学习的训练方案设计与开发 |
3.1 前期分析 |
3.1.1 学习者分析 |
3.1.2 学习目标和学习内容分析 |
3.1.3 学习环境分析 |
3.2 学习资源的设计与开发 |
3.2.1 线上资源设计 |
3.2.2 线下资源设计 |
3.3 学习活动设计 |
3.3.1 课前学习活动设计 |
3.3.2 课中学习活动设计 |
3.3.3 课后学习活动设计 |
3.4 学习评价设计 |
3.4.1 训练过程评价 |
3.4.2 训练结果评价 |
3.5 本章小结 |
4 基于混合式学习的训练方案应用实践—以语速、音量为例 |
4.1 前期分析 |
4.1.1 学习者分析 |
4.1.2 学习目标和学习内容分析 |
4.1.3 学习环境分析 |
4.2 学习资源的设计 |
4.2.1 训练原理的分析 |
4.2.2 学习资料的选取 |
4.3 语速组学习活动设计 |
4.3.1 训练目的 |
4.3.2 训练结果假设 |
4.3.3 训练准备 |
4.3.4 训练实施流程 |
4.4 音量组学习活动设计 |
4.4.1 训练目的 |
4.4.2 训练结果假设 |
4.4.3 训练准备 |
4.4.4 训练实施流程 |
4.5 学习评价设计 |
4.5.1 训练过程评价 |
4.5.2 训练结果评价 |
5 应用效果分析 |
5.1 基于在线学习数据分析 |
5.1.1 在线学习笔记提交情况 |
5.1.2 平台菜单点击情况 |
5.2 基于实验对比的数据分析 |
5.2.1 快速组实验数据分析 |
5.2.2 慢速组实验数据分析 |
5.2.3 低音量组实验数据分析 |
5.2.4 高音量组实验数据分析 |
5.3 基于问卷的数据分析 |
5.3.1 问卷设计 |
5.3.2 问卷数据分析 |
5.4 小结 |
6 研究总结与展望 |
6.1 研究总结 |
6.2 研究展望 |
参考文献 |
附录1 |
附录2 |
附录3 |
附录4 |
附录5 |
附录6 |
致谢 |
(3)基于相关向量机的说话人判别研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 全文内容和组织结构 |
1.3.1 论文主要内容 |
1.3.2 全文结构 |
第二章 支持向量机理论 |
2.1 支持向量机 |
2.1.1 SVM概述 |
2.1.2 核技巧 |
2.2 SVM说话人识别 |
2.2.1 话者确认任务 |
2.2.2 话者辨认任务 |
2.3 本章小结 |
第三章 基于保局核的相关向量机及RVM分析 |
3.1 局部特性保持的RVM说话人鉴别模型 |
3.1.1 核函数原理 |
3.1.2 亲和度因子 |
3.2 RVM实验与分析 |
3.2.1 UCI公共数据实验 |
3.2.2 说话人识别实验 |
3.3 本章小结 |
第四章 多元相关向量机说话人判别模型分析 |
4.1 多分类RVM |
4.2 RVM模型参数训练 |
4.3 实验与分析 |
4.3.1 UCI公共数据集分类 |
4.3.2 说话人鉴别分析 |
4.4 本章小结 |
第五章 说话人识别在声纹锁中的应用系统设计 |
5.1 概述 |
5.2 声纹锁 |
5.2.1 语音识别的基本原理分析 |
5.2.2 声纹锁系统工作原理分析 |
5.3 硬件设计 |
5.4 软件模块设计 |
5.5 本章小结 |
第六章 说话人识别在声纹锁中的应用系统实现 |
6.1 系统开发环境 |
6.2 说话人识别系统实现过程 |
6.2.1 语音信号预处理 |
6.2.2 提取语音参数 |
6.2.3 识别模型 |
6.2.4 说话人判决 |
6.3 应用系统实现 |
6.4 系统测试及相关结果 |
6.4.1 测试环境 |
6.4.2 软件测试方法 |
6.4.3 测试内容及结果 |
6.5 本章小结 |
第七章 结论与展望 |
7.1 结论 |
7.2 展望 |
致谢 |
参考文献 |
附录 |
(4)基于保局部核多元RVM的说话人识别方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 选题背景与意义 |
1.1.1 生物特征认证技术 |
1.1.2 说话人识别技术 |
1.2 说话人识别研究现状 |
1.3 说话人识别技术存在的问题 |
1.4 本文研究内容和结构安排 |
1.4.1 本文研究内容 |
1.4.2 论文结构安排 |
第2章 说话人识别基本原理 |
2.1 引言 |
2.2 说话人识别系统框架 |
2.3 语音特征参数提取 |
2.3.1 LPCC 特征参数 |
2.3.2 MFCC 特征参数 |
2.4 说话人识别模型 |
2.4.1 模板匹配模型 |
2.4.2 概率统计模型 |
2.4.3 区分性模型 |
2.5 判别规则和性能评价标准 |
2.5.1 模型判别规则 |
2.5.2 模型性能评价标准 |
2.6 本章小结 |
第3章 基于保局部核 RVM 的说话人识别方法 |
3.1 引言 |
3.2 RVM 模型介绍 |
3.2.1 RVM 模型基本原理 |
3.2.2 RVM 模型参数训练过程 |
3.3 基于保局部核的RVM 说话人识别模型 |
3.3.1 核函数思想 |
3.3.2 保局部核函数 |
3.4 实验分析 |
3.4.1 UCI 公共数据集分类 |
3.4.2 说话人识别 |
3.5 本章小结 |
第4章 基于保局部核多元 RVM 的说话人识别方法 |
4.1 引言 |
4.2 MRVM 模型 |
4.2.1 多分类模型间接构造法 |
4.2.2 MRVM 模型 |
4.3 模型参数优化过程 |
4.4 实验分析 |
4.4.1 UCI 公共数据集分类 |
4.4.2 说话人识别 |
4.5 本章小结 |
第5章 声纹门控系统设计 |
5.1 引言 |
5.2 说话人识别应用于声纹门控系统 |
5.3 声纹门控系统设计 |
5.3.1 硬件设计 |
5.3.2 软件设计 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读学位期间参加的科研项目和成果 |
(5)基于智能群体和盲源分离的说话人识别(论文提纲范文)
摘要 |
Abstract |
插图索引 |
附表索引 |
第1章 绪论 |
1.1 说话人识别的概述 |
1.1.1 说话人识别的分类 |
1.1.2 研究现状 |
1.1.3 技术难点 |
1.2 说话人识别的性能评价 |
1.3 本文的主要工作及内容结构安排 |
第2章 说话人识别技术 |
2.1 说话人识别基本模型 |
2.2 语音噪声信号的处理 |
2.2.1 噪声信号的分类 |
2.2.2 噪声信号的处理 |
2.2.3 信道鲁棒特性 |
2.3 说话人识别特征参数 |
2.3.1 线性预测倒谱系数LPCC |
2.3.2 梅尔倒谱系数MFCC |
2.4 说话人识别方法及分类模型 |
2.4.1 说话人识别模型 |
2.4.2 说话人识别分类模型 |
2.5 本章小结 |
第3章 盲源分离技术及其在语音信号处理中的应用 |
3.1 盲源分离技术 |
3.2 独立分量分析 |
3.2.1 独立分量分析基本算法 |
3.2.2 ICA的预处理 |
3.3 独立分量分析的几种学习算法 |
3.3.1 固定点算法 |
3.3.2 随机梯度学习算法 |
3.3.3 自然梯度学习 |
3.3.4 常用算法的不足 |
3.4 本章小结 |
第4章 基于粒子群算法改进的盲源分离算法 |
4.1 语音数据上的互信息的分析 |
4.2 基于粒子群算法改进的独立分量分析 |
4.2.1 粒子群算法 |
4.2.2 基于动态惯性权重的PSO算法 |
4.2.3 适应度函数 |
4.2.4 粒子群算法改进的ICA算法 |
4.3 实验 |
4.4 本章小结 |
第5章 一种改进的量子粒子群分类器的设计 |
5.1 量子粒子群基本原理 |
5.2 引入权重系数的量子粒子群优化算法 |
5.3 量子粒子群分类器的设计 |
5.3.1 编码规则和适应度函数 |
5.3.2 决策超平面 |
5.3.3 带权重系数的量子粒子分类器的结构 |
5.4 仿真实验结果及分析 |
5.5 本章小结 |
总结与展望 |
参考文献 |
致谢 |
附录A 攻读硕士学位期间所发表的学术论文 |
(6)基于核方法的说话人辨认模型研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 引言 |
1.2 说话人识别系统框架 |
1.2.1 预处理 |
1.2.2 特征参数提取 |
1.2.3 识别模型 |
1.2.4 得分判决 |
1.3 基于核函数的模式分类 |
1.3.1 核分类思想 |
1.3.2 支持向量机分类模型 |
1.4 国内外研究现状 |
1.5 本文语料库 |
1.6 研究内容与结构安排 |
1.6.1 论文内容概述 |
1.6.2 论文组织结构 |
第2章 主流说话人识别模型 |
2.1 引言 |
2.2 GMM-MAP-UBM说话人识别 |
2.2.1 统一背景模型框架 |
2.2.2 目标模型MAP训练 |
2.3 SVM说话人识别 |
2.3.1 SVM说话人确认 |
2.3.2 SVM说话人辨认 |
2.4 存在问题分析 |
2.5 本章小结 |
第3章 GMM/RVM联合说话人辨认 |
3.1 引言 |
3.2 相关向量机模型 |
3.2.1 模型描述 |
3.2.2 分类参数w ,α推导 |
3.2.3 快速求解方法 |
3.3 GMM/RVM联合话者辨认系统 |
3.4 实验分析 |
3.5 本章小结 |
第4章 多元核Logistic回归说话人辨认 |
4.1 引言 |
4.2 核Logistic回归 |
4.3 多元核Logistic回归 |
4.4 快速对偶训练算法 |
4.4.1 目标泛函对偶化 |
4.4.2 最优化条件 |
4.4.3 序列最小优化 |
4.5 实验分析 |
4.5.1 最优KLR选择 |
4.5.2 说话人辨认 |
4.6 本章小结 |
第5章 概率稀疏型Logistic回归说话人辨认 |
5.1 引言 |
5.2 模型框架 |
5.3 稀疏性先验概率 |
5.4 模型训练算法 |
5.4.1 算法整体框架 |
5.4.2 先验α优化 |
5.4.3 实现实则 |
5.5 实验分析 |
5.5.1 合成数值 |
5.5.2 UCI基准数据实验1 |
5.5.3 UCI基准数据实验2 |
5.5.4 说话人辨认 |
5.6 本章小结 |
第6章 类内特征保持的核Fisher说话人辨认 |
6.1 引言 |
6.2 降维分类 |
6.3 Fisher判别法 |
6.3.1 线性Fisher鉴别 |
6.3.2 核Fisher鉴别 |
6.3.3 求解思路 |
6.4 保局部投影法 |
6.5 保类内特征的核Fisher判别模型 |
6.5.1 LWFDA定义 |
6.5.2 亲和矩阵A 求取 |
6.5.4 快速求解算法 |
6.6 实验分析 |
6.6.1 数值仿真 |
6.6.2 UCI公共数据集分类 |
6.6.3 说话人辨认 |
6.7 本章小结 |
第7章 增强型数据域描述说话人辨认 |
7.1 引言 |
7.2 支持向量数据描述 |
7.2.1 线性SVDD |
7.2.2 核化SVDD |
7.3 增强型数据域描述分类机 |
7.3.1 模型框架 |
7.3.2 SMO训练算法 |
7.3.3 计算复杂度分析 |
7.4 实验分析 |
7.4.1 支持域描述性能对比 |
7.4.2 公共数据集识别 |
7.4.3 说话人辨认 |
7.5 本章小结 |
第8章 结论与展望 |
8.1 结论 |
8.2 展望 |
参考文献 |
致谢 |
攻读学位期间参加的科研项目和成果 |
(7)车载语音控制系统设计及DSP实现(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 语音识别的概述 |
1.1.1 语音识别的基本概念 |
1.1.2 语音识别的分类 |
1.1.3 噪声环境下的语音识别 |
1.1.4 车载语音控制 |
1.2 DSP 的发展概况及其应用 |
1.2.1 DSP 的特点 |
1.2.2 DSP 的发展 |
1.2.3 DSP 的应用领域 |
1.3 本论文的主要工作 |
第二章 抗噪语音识别基本理论 |
2.1 语音生成模型与噪声 |
2.1.1 语音生成模型 |
2.1.2 语音的环境模型 |
2.2 抗噪语音识别的方法 |
2.2.1 语音增强 |
2.2.2 抗噪语音特征 |
2.2.3 模型补偿 |
第三章 DSP 语音控制系统的设计与实现 |
3.1 系统硬件平台 |
3.1.1 语音输入模块 |
3.1.2 数据处理模块 |
3.1.3 输出模块 |
3.2 系统的设计与实现 |
3.2.1 数据的采集 |
3.2.2 数据的处理 |
3.2.3 模型参数的处理 |
3.3 系统的优化 |
3.4 系统的引导及自举 |
第四章 车载语音控制系统算法 |
4.1 CENSREC-2 数据库 |
4.1.1 车载噪声录音条件 |
4.1.2 车载噪声种类及特点 |
4.2 抗噪算法的研究 |
4.2.1 ACDM-LMSE |
4.2.2 倒谱均值减 |
4.3 实验分析 |
4.3.1 实验条件 |
4.3.2 实验结果 |
4.3.3 实验分析与结论 |
第五章 总结及展望 |
参考文献 |
攻读学位期间主要研究成果 |
致谢 |
(9)说话人辨认中的特征参数提取和鲁棒性技术研究(论文提纲范文)
摘要 |
Abstract |
目录 |
第一章 绪论 |
1.1 引言 |
1.2 研究背景与意义 |
1.3 说话人识别的发展概况及现状 |
1.4 说话人识别系统概述 |
1.4.1 说话人识别的分类和基本组成 |
1.4.2 说话人识别的特征提取 |
1.4.3 说话人识别的主要方法 |
1.4.4 说话人识别系统的性能评价 |
1.5 研究现状和难点 |
1.5.1 说话人特征的提取 |
1.5.2 鲁棒性说话人识别技术 |
1.6 论文主要研究内容与结构安排 |
1.6.1 主要研究内容 |
1.6.2 论文的结构安排 |
第二章 基于特征变换和模糊LS-SVM的说话人辨认 |
2.1 引言 |
2.2 基本理论概述 |
2.2.1 高斯混合模型原理 |
2.2.2 Mel频率倒谱参数特征 |
2.2.3 最小二乘支持向量机 |
2.3 基于特征变换和模糊LS-SVM的说话人辨认 |
2.3.1 基于高斯混合模型的特征变换 |
2.3.2 模糊隶属度函数 |
2.4 说话人辨认实验 |
2.4.1 实验语音库 |
2.4.2 特征变换类数M对识别性能的影响 |
2.4.3 不同的变换方法及其模糊隶属度对识别性能的影响 |
2.4.4 与传统识别方法的性能比较 |
2.5 结论 |
第三章 基于感知特征和模型补偿的鲁棒性说话人辨认 |
3.1 引言 |
3.2 感知对数面积比系数 |
3.2.1 线性预测模型 |
3.2.2 人耳感知特性 |
3.2.3 感知线性预测模型 |
3.2.4 感知对数面积比系数的提取 |
3.3 基于感知特征和模型补偿的说话人辨认算法 |
3.3.1 对帧似然概率的归一化补偿变换 |
3.3.2 基于感知特征和模型补偿的算法的提出 |
3.4 鲁棒说话人辨认实验 |
3.4.1 预处理和特征提取 |
3.4.2 高斯混合模型的建立与识别 |
3.5 实验与结果分析 |
3.5.1 特征分量的F比鉴别分析 |
3.5.2 噪声环境下基于高斯混合模型的辨认性能 |
3.5.3 模型补偿变换参数的选择 |
3.5.4 噪声环境下基于模型补偿的辨认性能 |
3.6 结论 |
第四章 基于自适应频率规整的鲁棒性说话人辨认 |
4.1 引言 |
4.2 语音发音系统原理 |
4.3 说话人个性特征的提取 |
4.4 自适应频率规整与特征提取 |
4.4.1 频带鉴别性分析 |
4.4.2 基于自适应频率规整的非均匀子带分布 |
4.4.3 DFCC参数的提取 |
4.5 噪声环境下语音频谱的增强 |
4.5.1 语音/非语音检测 |
4.5.2 噪声谱估计 |
4.5.3 先验信噪比的最优估计 |
4.5.4 干净语音频谱的估计 |
4.6 鲁棒说话人辨认实验 |
4.6.1 不同语音文件的频带鉴别性分析 |
4.6.2 干净语音环境下DFCC特征在不同测试文件的识别性能 |
4.6.3 噪声环境下DFCC特征的抗噪性能测试 |
4.7 结论 |
第五章 基于汉语元音映射的说话人辨认 |
5.1 引言 |
5.2 汉语语音的基本特性 |
5.2.1 汉语语音的特点 |
5.2.2 声母和韵母 |
5.2.3 汉语的音节结构 |
5.3 汉语元音映射的提出 |
5.3.1 汉语元音频谱的对比 |
5.3.2 复韵母中单元音音素的滑动分析 |
5.3.3 常用复韵母的分解实验 |
5.3.4 二合元音共振峰分析 |
5.3.5 韵母—元音分解的识别性能实验 |
5.3.6 基于汉语元音映射的说话人识别框架 |
5.4 基于汉语元音映射和仿生模式识别的说话人辨认 |
5.4.1 基于频域能量分布分析的元音帧提取 |
5.4.2 仿生模式识别理论 |
5.4.3 基于仿生模式识别的说话人识别方法 |
5.4.4 改进的最近邻覆盖算法 |
5.5 说话人辨认实验 |
5.5.1 辨认算法主要步骤 |
5.5.2 实验结果与分析 |
5.6 结论 |
第六章 总结与展望 |
6.1 论文工作总结 |
6.2 研究展望 |
致谢 |
参考文献 |
附录 |
(10)基于组合去噪方法的语音识别抗噪技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 语音识别概述 |
1.1.1 语音识别的意义 |
1.1.2 语音识别系统的分类 |
1.1.3 语音识别的发展历史及研究现状 |
1.2 抗噪声语音识别概述 |
1.3 本文的结构安排 |
第二章 语音识别系统的基本原理 |
2.1 语音识别系统基本框架 |
2.2 语音识别系统的预处理技术 |
2.2.1 滤波和模数变换 |
2.2.2 预加重 |
2.2.3 语音信号的分帧和加窗 |
2.2.4 语音信号的端点检测 |
2.3 语音识别的特征提取技术 |
2.3.1 线性预测系数(LPC) |
2.3.2 线性预测倒谱系数(LPCC) |
2.3.3 Mel 频率倒谱系数(MFCC) |
2.4 语音识别的模板训练方法 |
2.5 语音识别的模板匹配方法 |
2.5.1 动态时间规整(DTW) |
2.5.2 隐马尔可夫模型(HMM) |
2.6 本章小节 |
第三章 语音识别系统的抗噪声技术 |
3.1 噪声分类 |
3.1.1 加性噪声与乘性噪声 |
3.1.2 平稳噪声、缓变噪声与冲激噪声 |
3.1.3 全频带噪声和窄带噪声 |
3.2 噪声对语音识别的影响 |
3.3 各种抗噪声语音识别技术 |
3.3.1 语音增强 |
3.3.2 抗噪声的语音特征 |
3.3.3 噪声环境的模型补偿 |
3.4 本章小节 |
第四章 基于小波变换的组合去噪技术 |
4.1 语音信号处理中的小波技术 |
4.1.1 小波变换 |
4.1.2 离散二进小波变换 |
4.1.3 多分辨率分析 |
4.1.4 小波变换的局部化性质 |
4.1.5 几种常用小波函数 |
4.2 基于小波变换的组合去噪技术 |
4.2.1 基于小波变换的语音增强技术 |
4.2.2 基于小波变换的语音特征提取技术 |
4.3 本章小节 |
第五章 仿真实验及结果分析 |
5.1 抗噪声的语音识别系统模型 |
5.1.1 预处理 |
5.1.2 基于小波阈值去噪法的语音增强 |
5.1.3 端点检测 |
5.1.4 基于离散小波变换的MFCC 特征参数提取 |
5.1.5 HMM 模型 |
5.2 仿真实验 |
5.2.1 仿真环境介绍 |
5.2.2 基于小波变换的语音增强实验及结果分析 |
5.2.3 基于小波变换的语音特征提取实验及结果分析 |
5.2.4 基于小波变换的组合去噪方法识别实验及结果分析 |
5.3 本章小节 |
第六章 结论与展望 |
6.1 课题总结 |
6.2 工作展望 |
致谢 |
参考文献 |
攻硕期间取得的研究成果 |
四、一种用于强噪声环境下语音识别的含噪Lombard及Loud语音补偿方法(论文参考文献)
- [1]基于混合式学习的师范生教学语言技能训练研究[D]. 文佳唯. 四川师范大学, 2019(02)
- [2]基于语音实现人机对话的空调控制器研究开发[A]. 郑志辉,向小军,赵乐. 2018年中国家用电器技术大会论文集, 2018
- [3]基于相关向量机的说话人判别研究[D]. 毛永刚. 电子科技大学, 2012(06)
- [4]基于保局部核多元RVM的说话人识别方法研究[D]. 郑泽萍. 浙江工业大学, 2011(06)
- [5]基于智能群体和盲源分离的说话人识别[D]. 李伟娟. 兰州理工大学, 2010(04)
- [6]基于核方法的说话人辨认模型研究[D]. 郑建炜. 浙江工业大学, 2010(07)
- [7]车载语音控制系统设计及DSP实现[D]. 王坚. 苏州大学, 2010(02)
- [8]基于声纹识别技术的应用难点研究[A]. 郭皓婷. 2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集, 2009
- [9]说话人辨认中的特征参数提取和鲁棒性技术研究[D]. 李燕萍. 南京理工大学, 2009(02)
- [10]基于组合去噪方法的语音识别抗噪技术研究[D]. 柳奇芳. 电子科技大学, 2008(04)