一、基于双语模型的汉语句法分析知识自动获取(论文文献综述)
庞蕊[1](2021)在《融合先验知识的蒙汉神经机器翻译研究》文中研究指明机器翻译是自然语言处理领域中的一项关键技术。随着近些年深度学习的飞速发展,神经机器翻译研究取得了显着进步。然而作为一项数据驱动的技术,神经机器翻译方法应用在语料资源稀缺的蒙汉翻译任务中时效果并不理想。资源稀缺语言的机器翻译可通过数据增强或迁移学习等方式提高翻译效果,本文则采用融合先验知识的方法缓解蒙汉平行语料资源稀缺的问题,提高神经机器翻译模型对不同类型语言学信息的建模能力。分别对三种不同类型先验知识的融合进行了研究。一、选择目标语言端丰富的句法结构信息作为先验知识。首先对目标端的汉语语料进行句法结构分析,之后将句法结构树转换为序列数据类型的线性句法树,作为解码器的输入融合到神经机器翻译模型中。最后采用重排序分数作为衡量翻译模型对语法结构学习程度的指标。实验表明,该方法生成的译文具有更强的语法结构。二、选择蒙汉平行短语对作为先验知识。短语对由外部语言资源与从蒙汉平行语料库中抽取而得,之后对句子中的短语进行标记。该模型的解码器有单词模式和短语模式,对于源句中被标记为短语的单词片段,可逐词翻译或作为一个整体翻译为对应的目标短语。该方法不仅将外部的短语知识引入神经机器翻译,还对循环神经网络的逐词生成机制进行了扩展。三、选择训练好的统计机器翻译模型作为先验知识。首先使用蒙汉平行语料库分别独立训练统计机器翻译模型与神经机器翻译模型,之后在神经机器翻译的每个解码时间步,统计机器翻译模型根据源句与神经机器翻译在先前时刻生成的所有预测单词,给出当前时刻单词的翻译建议,最后由门控机制决定是否采纳统计机器翻译的建议。实验表明,融合统计机器翻译建议可以有效地提高翻译质量。本文在50万句对的蒙汉平行语料库上开展实验,实验结果显示三种类型先验知识的融合均可提高神经机器翻译模型的性能。其中融合句法结构信息的模型BLEU值提高0.28,融合外部短语信息的模型BLEU值提高1.27,融合统计机器翻译建议的模型BLEU值提高1.64,而进一步使用统计建议替换未登录词的模型BLEU值提高2.18。
头旦才让[2](2021)在《汉藏神经机器翻译关键技术研究》文中研究表明机器翻译是利用机器将一种自然语言转换为另一种自然语言的过程,它是计算语言学的一个分支,涉及计算机技术、数学、认知科学、语言学、信息论等多门学科的交叉和联系,是人工智能的终极目标之一。汉藏机器翻译相关技术的研究,对于继承和弘扬民族优秀文化,增进文化交流,寻求思想的沟通,服务国家一带一路倡议,推动我国藏族地区社会、经济、教育和文化事业发展等有着十分重要的现实意义;能够促进藏语计算语言学的实质性发展,具有非常重要的科学研究价值和实际应用价值。本文在通过构建高质量和内容丰富的汉藏双语平行语料库的基础上,对藏文长句分割技术、藏文地名识别技术、改进藏文字节对编码等关键技术进行了初步探索,力图通过优化汉藏神经机器翻译模型来提高翻译性能。具体而言,本文的研究内容主要包括以下几个方面:(1)语料库预处理方面:本文重点研究了藏文长句分割技术,归纳藏语句子边界识别规则,找出句子边界识别的难点,提出了融合藏语依存句法和基于Bi-LSTM(Bi-Long Short-Term Memory)+CRF(Conditional Random Fields)的藏语长句子分割方法,对藏语长句进行了分割,实验表明,该方法有效地分割了藏文长句,F值达到99.42%。(2)藏文命名实体识别方面:本文重点介绍了藏文地名识别技术,阐述了藏文地名的音节、触发词、地名后续词和格助词等特性适用基于CRF模型的地名识别。实验结果表明本文方法对藏文地名识别的准确率、召回率和F值分别达到了96.12%、81.92%和88.45%。为处理藏文地名词,本文在训练语料分词中融入了藏文地名识别技术,BLEU值达到30.46,提高了汉藏命名实体翻译的效果。(3)模型改进方面:本文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型。收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型。通过测试和验证,模型的BLEU值达到36.84。本文构建的模型的命名实体翻译效果要优于已商用汉藏在线翻译系统。(4)系统改进方面:设计实现了基于注意力机制和改进字节对编码的汉藏神经机器翻译系统,优化了后端流程和程序,部署在阳光汉藏机器翻译网站,实现了阳光汉藏神经机器翻译系统V2的应用推广。
张海玲[3](2021)在《基于句法规则层次化分析的神经机器翻译研究》文中进行了进一步梳理近年来,深度学习的应用不仅在图像识别、文本生成等领域表现突出,在自然语言处理方面也效果显着。自然语言处理系统在生活中比比皆是,比如手机智能助手在理解用户请求之后,就能通过文字或语音的方式反馈用户信息。人类之间主要通过语言的方式进行沟通交流,以达到知识分享、扩展人际关系等目的。然而,目前全球在使用的语言超过五千种,要想精通多门语言是一项艰巨的任务。此时,机器翻译作为自然语言处理领域中的一个重要分支部分,在保留原始语义的条件下,实现了不同语言之间的等价变换,是与世界其他地区进行沟通交流的重要工具。而今,神经机器翻译技术与以往的机器翻译方法相比较,神经机器翻译模型效果较好。但是,神经机器翻译模型较少考虑到语言学知识的重要性。若能在翻译过程中融入语言的句式结构和语义信息,就能起到辅助神经机器翻译模型的作用,从而提升翻译句子的准确性。本文由此提出基于句法规则层次化分析的神经机器翻译模型,通过结合改进的句法分析方法来提高翻译质量。本文首先从句法分析入手。目前对于句法分析的研究,大多数是从字、词的角度考虑,存在一定的局限性。因此,本文利用句子成分之间的语法结构关系对词性、词序的影响,提出一种二元与三元词相结合的句法规则层次化分析算法,实现语句的层次化分析。结果表明,句法规则层次化分析算法的结合模型相比于独立二、三元词模型效果较好,其准确率和召回率分别达到了82.04%,80.83%;与现有基于二分结构句法分析的序列标注模型算法和词汇化模型算法相比,准确率和召回率均有明显提升。实验证明本文提出的二元与三元词相结合的层次化分析算法具有可行性。句法分析在机器翻译中占据着重要的地位。本文利用分治法的思想,对句法规则层次化分析算法进行改进,并融入到神经机器翻译模型中。通过句法规则层次化分析算法,识别并分离句子的主干部分和最长短语,再训练基于自注意力机制的Transformer模型,对最长短语和句子主干部分分别进行翻译之后再组合,得到最终译文。结果表明,在中-英机器翻译任务上,翻译结果BLEU值相较于基准实验提高了0.95个点,证明该方法能显着提升翻译性能,并且对于句式结构复杂的长句翻译效果更佳。
慈祯嘉措[4](2020)在《贫语言资源条件下的藏汉(汉藏)机器翻译关键技术研究》文中认为随着深度学习在自然语言处理研究中取得突破性进展,机器翻译技术也发生了革命性的变化,被广泛应用于人们的生活和工作中。我国作为一个统一的多民族国家,党和政府高度重视少数民族自然语言处理。近年来,我国少数民族自然语言处理相关技术蓬勃发展,尤其是藏语自然语言处理,更是随着科学技术的发展不断地在进步。不论基于统计还是基于神经网络的机器翻译方法,都需要具备大规模的双语或多语语言数据资源作为支撑,对于藏语相关的藏语自然语言处理研究而言,依然存在着数据资源稀缺、理论基础薄弱和技术方法不够成熟等问题,本文希望通过藏汉语言数据资源构建、单语语言模型融合、迭代式回译策略的应用以及跨语言模型预训练等理论和方法的研究,为贫语言资源条件下的藏汉机器翻译提供一个有效的研究思路,同时缓解目前藏汉机器翻译中资源稀缺、翻译性能不理想等问题,为藏区经济社会发展提供语言互译的技术支撑。本文的主要工作和创新点总结如下:针对藏汉语言数据资源匮乏问题,本文提出了一种面向藏汉机器翻译的语言资源构建技术,并构建了一个基于人民日报(藏文版)的藏、汉单语语料库和藏汉双语平行语料库。本文首先使用基于Web的大规模资源获取技术收集藏语单语新闻语料,并通过CNN+Bi-LSTM+CRF的藏文分词技术和Bi-LSTM+CRF的命名实体识别技术识别藏语新闻中的时间、地点、人物、组织机构等命名实体,并将其进行粗翻译,得到对应的汉语命名实体,然后通过汉语命名实体匹配到相对应的汉语新闻并将其进行预处理,通过篇章特征集合的相似度计算和基于Bi-LSTM+Attention模型的跨语言句子相似度计算,对藏汉两种语言的新闻文本进行篇章对齐和句子对齐,最终构建一个具有53.834万句藏语单语、61.759万句汉语单语和53.762万句对的藏汉双语平行语料库。针对藏汉机器翻译中双语平行语言资源缺乏,而藏汉两种语言的单语数据较为丰富的问题,为有效利用资源丰富的藏语单语数据以提高藏汉神经网络机器翻译的性能,本文提出了一种融合单语语言模型的藏汉机器翻译方法。本文首先通过循环神经网络语言模型建模的方法构建藏语单语语言模型,并将其与翻译模型的解码端预输出进行融合处理,利用浅层融合和深层融合的方式,将翻译模型生成的词和语言模型生成的词重新进行加权排序,使源语言与目标语言产生映射关系,最终输出目标语言。通过这种融合单语语言模型的藏汉机器翻译建模方法,可有效提升贫语言资源条件下的藏汉机器翻译的性能,经实验,这种方法在相同资源条件下,比原有的Transformer基线系统提升了3.4(藏-汉)和4.7(汉-藏)个BLEU值。针对贫资源条件下藏汉机器翻译性能不佳的问题,提出了一种迭代式回译策略的藏汉机器翻译方法。本文首先通过资源构建技术和实验室原有数据资源构建一个Transformer初始系统,对较大规模的单语语料(正向)进行翻译,得到源端是正确的句子,目标端是翻译生成的句子,然后通过平行句对过滤机制构建具有较强监督信息的伪藏汉双语平行语料,将其加入到翻译模型的训练中,然后进行回译(反向),通过相同的方式得到目标端是正确的句子,而源端是翻译生成的句子,经多次迭代实验,在初始系统原有的性能指标上,提升了6.7(藏-汉)和9.8(汉-藏)个BLEU值。针对藏汉平行数据资源规模和领域受限,对监督式神经网络机器翻译模型的适应性较差的问题,提出了一种跨语言模型建模的藏汉机器翻译方法。本文首先构建了一个以Transformer为基线系统的藏汉机器翻译系统,通过对藏、汉掩码语言模型的预训练和藏汉跨语言翻译模型的建模,建立了富资源(汉)和贫资源(藏)之间的映射关系,然后将带有详细的语言信息和位置信息标签的藏汉双语句子以文本流的形式作为输入,通过这种预训练方式优化基线模型的性能,经实验表明,BLEU值分别提升了8.1(Transformer Base+MLM和Transformer Base)和5.7(Transformer Base+MLM和SMT)。本文一方面通过对藏汉语言资源构建和相关技术的研究,构建面向藏汉机器翻译的语言资源库,另一方面通过研究贫语言资源条件下的藏汉机器翻译理论和方法研究,优化和改进藏汉机器翻译的性能,取得了一些成果,为今后藏汉机器翻译研究提供了一个可借鉴的思路和方法。
戴茹冰[5](2020)在《汉语抽象语义表示体系、资源构建及其应用研究》文中认为语义表示作为自然语言处理的重难点,一直是学界研究的热点问题。面对语言计算从句法向语义层面转型的大趋势,现有的语言资源包括概念语义、框架语义和情境语义方面都有不同程度的发展,将多层次多类型的语义资源融合,构建一个深层语义表示的语言知识库成为现阶段亟待解决的问题之一。目前对于语义表示的研究不论是从语言理论还是自动分析领域,研究方向都逐渐从句法走向了语义,句法结构的表示方法也由最初树形(tree)结构,到非投影树(non-project tree)结构,再到初步尝试和应用图(graph)结构,经历了由树到图的发展进程。而抽象语义表示AMR(Abstract Meaning Representation,AMR)作为一种全新的语义表示方法,将句子的语义抽象为一个单根有向无环图。这种抽象语义表示方法将句法和语义信息相结合,以图结构来表示语义,揭示树结构所无法表征的论元共享现象,给句子语义以更加清晰的表达。然而句子中的词语和AMR图的概念对齐信息缺失,一定程度上影响自动分析效果和语料标注质量,同时中文还未有较大规模的AMR语料库。本文借鉴英文AMR语义表示理念,结合汉语自身特点并融合概念对齐信息,提出一套适用于汉语的句法语义一体化的表示方法,即概念对齐汉语抽象语义表示CA-CAMR(Concept-to-word Alignment Chinese Abstract Meaning Representation,CA-CAMR)体系。具体内容包括以图结构处理论元共享问题,融合句子词语到AMR图的概念对齐信息以提升语义表示能力,并在CA-CAMR标注体系中规定汉语特殊结构及复句关系标注方法。通过英汉AMR在语义表示的对比,总结CA-CAMR对AMR的继承及在此基础上的发展,证明本文提出的CA-CAMR表示体系在描写汉语语义的优势,并且融合概念对齐信息对于语言学研究和自动分析算法设计都具有一定价值。CA-CAMR表示体系的建立为进一步开展概念对齐的汉语抽象语义表示语料库奠定基础。在此基础上,本文进行了CA-CAMR语料库构建。以CA-CAMR标注规范为指导,采用人机结合的语料库标注方式,通过CAMR语料标注平台CAMR Anno Kit构建汉语抽象语义标注语料库。CA-CAMR语料库目前包含来自《小王子》、宾州中文树库CTB8.0(the Penn Chinese Treebank,CTB)的网络媒体语料和小学语文教材(人教版)共20149句语料。本文详细展示语料标注情况,针对试标语料的不一致现象给出消解策略,并对语料库数据进行系统地统计与分析,包括图结构、论元共享现象及汉语特殊句法结构的标注情况。统计结果表明所标CA-CAMR语料库达到一定规模,并在深层语义表示及特殊句法结构上具有优势,实现句法语义一体化标注,可以为相关研究提供语料资源支持。最后探索构建CA-CAMR表示体系及语料库在语言本体及自然语言处理两个方面的应用价值。省略是汉语中常见的语言现象,在传统的句法语义表示方式中,含有省略信息的语言结构往往被忽视。本文利用CA-CAMR语料库考察汉语语义省略结构在大规模真实文本中的分布情况,大致描写出汉语省略现象的概貌。然后以省略现象中所占比例最高(47.3%)的省略“的”字结构为研究对象,构建一套自动识别与自动补全省略中心语的实验方案,实验结果表明该方法能够在CA-CAMR语料中有效识别及补全省略的“的”字结构,证明CACAMR表示体系及语料库对汉语深层语义关系表达的研究价值。
王柔化[6](2019)在《汉英不平衡双语者二语言语产出句法启动实验研究》文中指出双语者指的是能够在交际中应用两种语言的人。我国英语学习者中英语语法体系尚不完备、英语水平与汉语水平差异显着的双语人群被视为汉英不平衡双语者,其二语(L2)言语(口语)产出的认知加工过程,长期以来一直受到语言研究者们的关注。以往研究大多聚焦于言语产出过程的概念生成及编码机制,几乎没有学者对汉英不平衡双语者L2言语产出的程序化进程展开研究,更缺乏对L2目标结构言语产出准确度和反应速度的综合考察。言语产出(生成)的认知过程中,最复杂的就是言语产出构成加工的认知过程。想要深入理解外部语言刺激(程度、语种、通道)是否会使不平衡双语者对输入信息的片段产生认知构块,及不平衡双语者如何对心理词库及陈述性规则进行检索,从而促进L2产出的自动性处理,需要对不平衡双语者L2言语产出的准确度和速度进行考量。句法启动实验研究是对其进行考察的理想范式,近年来很多学者认为,句法启动已经成为心理学和语言学跨领域研究的新兴研究方向。因此,本文首先对句法启动及言语产出研究的理论和实证研究的现状进行梳理和述评。在文献梳理和述评的基础上,本文提出“汉英不平衡双语者言语产出模型”,在Kormos.J.(2006)的双语产出模型基础上加入自动处理等相关部分,细化长期记忆中的双语存储,使之更适合描述汉英不平衡双语者言语产出的认知加工过程。本模型的基本假设是:外部刺激(启动)会使汉英不平衡双语者在L2言语产出时发生激活级联和程序化,从而使L2言语产出构成自动处理,且自动处理激活级联与双语心理词库和陈述性规则的共享句法表征检索相关联。基于“汉英不平衡双语者言语产出模型”,本研究主要采用句法启动实验研究回答下列研究问题:(1)启动程度(外部刺激的强度)不同会对L2言语产出产生哪些影响?(2)启动方式(刺激语种和通道)不同会对L2言语产出产生哪些影响?(3)句法启动中L2水平、动词重复、名词生命度和个人体差异等其他因素是否会对L2言语产出有影响?针对这些问题,本实采用句法启动图片描述任务设计3×4变量启动实验,利用E-prime2.0软件及SR-Box发声反应盒,收集1/1000秒(毫秒ms)为单位的数据,对汉英不平衡双语者L2在线言语产出情况进行考察。实验从L2目标结构的言语生成准确性、反应速度两方面,考察外部刺激是否会使被试产生认知激活级联和程序化,用TOPSIS算法对双变量综合评价可以发现哪种刺激会对不平衡双语者的L2言语产出产生更大影响,其他因素是否也会对启动结果产生影响。为实现这三个研究目的,本研究收集了研究被试在实验条件下的即时口语产出数据,其中包括汉英不平衡双语者对不同启动强度(双向启动,单向启动和无启动)、不同启动通道(视觉及听觉)及不同启动句语种(英语及汉语)的目标句产出和发声反应时数据和第二语言水平、动词施事和动词受事名词生命度等级以及自然条件(如性别、高考分数、父母学历等)、学习环境(学习方式、学习途径等)、词汇熟悉度、语言能力自评等数据。实验研究发现:1)研究模块一(启动程度对L2言语产出的影响):产出比、反应时和综合启动量三方面结果均显示,无论哪种启动语种(英语、汉语),无论哪种启动通道(视觉、听觉),双向启动Q1组(既看又读,既听又跟读)各实验明显优于单向启动Q2组(只看不读,只听不跟读)的各实验结果;单向启动Q2组各实验结果又均明显优于无启动控制Kz组的各实验结果,且组间差异显着。由此得出,不同启动语种,不同启动通道的句法启动效应都与启动程度正相关。这些研究结果说明:既看又朗读、既听又跟读的双向启动,对学习者的口语表达促进作用,比只看或只听效果更好。这也印证了研究假设中频繁刺激带来激活级联,记忆强化产生程序化效应带动自动处理。重复演练等频繁刺激可以促进L2的言语生成,且多通道的重复刺激更有效。汉英不平衡双语者的英语口语表达,可以通过多通道的重复演练得到促进和提高。2)研究模块二(启动方式对L2言语产出的影响):双向启动的英语语内实验(A英语视觉启动、B英语听觉启动),产出比结果为英语听觉启动优于英语视觉启动;反应时结果为英语视觉快于英语听觉;综合启动效应量结果为英语听觉启动优于英语视觉启动(Q1A:M=0.525<B:M=0.570)。跨语言启动实验(C汉语视觉启动、D汉语听觉启动),产出比、反应时(逆向指标)和综合启动效应量都是汉语听觉启动优于汉语视觉启动(Q1C:M=0.524<Q1D:M=0.574)。同通道实验综合启动量比较(A英听0.525、C汉听0.524)/(B汉听0.570、D英听0.574)各实验结果,整体差异不大;只有反应时汉语听觉启动快于英语听觉启动。单向启动组的各实验整体趋势与双向启动组一致。控制组各实验数值基本持平。这些研究结果说明:听觉输入和英语语内输入,对学习者言语产出得促进效果更好。外语教师可以更加侧重听觉训练和英语语内训练。在加快不平衡双语者的L2言语产出反应速度方面,英语视觉和汉语听觉两种启动方式效果更好。汉语启动同样有效,不能忽视母语作用!3)研究模块三(L2言语产出的其他影响因素):汉英不平衡双语者二语水平与句法启动效应呈正相关,即相对高水平的不平衡汉英双语者启动效应强,低水平的启动效应弱;动词重复启动也能够影响汉英不平衡双语者二语言语产出,句子核心动词重复目标句产出数增多,即存在词汇增强效应;名词生命度等级差异不同与目标句产出情况差异明显,同时目标句产出数值和发声反应时长都显示出,名词生命度等级差为2时,目标句产出最多,生命度等级差为1级时,发声反应时均值最短。个体差异因素中,高考英语成绩与启动效应显着相关P=0.028<0.05,高考语文成绩呈弱相关P=0.084,其他自然条件等因素对汉英不平衡双语者的L2言语产出没有显着影响。这些研究结果说明:在诸多个人因素中,语言水平尤其是L2水平与汉英不平衡双语者的L2言语产出显着相关。在汉英不平衡双语者(二语水平中低级)中,水平相对越高,启动效果越好,即由于外部刺激产生激活级联,形成程序化自动处理受到L2水平(心理词库和陈述性规则系统的完善程度)影响。基于上述研究得出如下教育启示及建议。(1)重复演练:在二语学习过程中,重复演练等频繁刺激可以促进L2的言语生成,图片描述、同盟者脚本、句子回忆、句子补全任务皆可通过重复演练促进口语生成,且简单知识的重复演练也能促进高级句法结构的口语生成;(2)听力训练:在二语学习过程中,听觉输入和L2语内带来的刺激可以更有效的促进L2言语产出:即听力训练可以更有效的提高二语的产出能力;(3)知识训练:二语词汇句法知识储备对二语言语产出量和速度至关重要,从而说明要提高二语言语产出能力,应该在教学中加强二语词汇句法知识训练和积累;(4)母语训练:对于汉英共享句法表征,母语相应结构的输入对二语言语产出的质量和速度都具有积极的影响,即母语句法知识的正迁移有助于二语相关知识的习得。本实验结果印证了激活级联和程序化的研究假设,证明了“汉英不平衡双语者言语产出模型”的合理性,这对二语习得理论与心理学的融合研究有一定的启示意义。本研究采用TOPSIS逼近理想算法对产出比和反应时双变量的综合评价作为启动效应量,本实验研究也可为语言学研究领域的多变量综合评价研究方法提供有益的启示。
贺胜[7](2017)在《现代汉语深度语义标注语料库研究》文中研究说明当前,世界各国学者都十分重视自然语言处理的知识资源的建设,建立了许多带各种标注信息的语料库,以适应更为深入的语言研究和自然语言处理系统的需要。在中文信息处理方面,汉语标注资源急需的是句子级的资源,需要一种可以描述出句子中词语与词语之间的深度语义信息的标注语料库。因此,探求半自动、甚至自动地建设大规模深度语义标注语料库的策略、模型、技术及方法显得极为迫切。语义分析技术是自然语言处理领域中最重要也是最为困难的问题。如何实现有效、深入、自动的句子语义分析,一直是国内外从事自然语言处理的研究者们所关注的重要目标。目前,自然语言处理领域的语义研究主要集中在浅层语义分析。浅层分析虽然降低了语义分析的难度,但是只解决了动核和语义角色的配置问题,对于情态成分以及名核结构所承担角色的内部语义关系并未进行标注,因此还不是句子语义结构的完整揭示。在我们的深度语义标注语料库中,主是是针对九年制中小学语文课本语料进行语义词类和句法语义范畴标注。语义词类指词汇的所属义类。句法语义范畴指语块所对应的语义范畴信息,包括核心范畴、修饰限定范畴、情态范畴等。目前,国内外语义词典中的语义分类体系更多的都是基于自然科学或常识,与这些基于常识的各种语义分类相比,我们研制的语义词类其突出特点是语义分类取决于句法语义分析的需要,可以解决一些仅靠句法分析难以解决的问题,形成了一套面向计算机语言处理的独特的标注体系,对中文信息处理中的句法语义自动分析具有重要意义。根据该指导思想,我们在语义角色标注方法中,使用了一种与传统方法不同的处理策略,我们称之为基于语义词类和语义句型框架的语义角色标注方法,这一方法将汉语语义角色标注从节点的分类问题转化为序列标注问题,由于避开了传统的句法分析环节,使得语义角色标注摆脱了对句法分析的依赖,从而避开了汉语句法分析器造成的时间和性能限制。经测试,新的方法可以取得较高的准确率,并且大大节省了分析的时间,有利于实际应用。本文围绕现代汉语深度语义标注语料库的建设和应用,进行了一系列的相关技术研究,主要成果如下:1、针对语料库的建设和应用需要,研制开发了语义词类词典制作工具、语义词类自动标注工具、语义词类检索统计工具、句法语义范畴检索统计工具、语义词类与句法语义范畴对应关系检索统计工具、句型抽取统计工具、句模抽取统计工具、句法语义范畴辅助标注工具等应用软件,为深度语义标注语料库的建设和应用提供了很好的技术支持。2、收集、制作了 4万多条的语义词类词典,标注了词性、词类和频率等信息,为语义词类的自动标注提供了语言知识支持。3、针对语义词类的自动标注,设计了基于隐马模型的标注算法,结合基于动态规划的Viterbi算法,在训练语料规模偏小、数据稀疏较严重的情况下仍然取得了封闭测试正确率94.3%,开放测试正确率89.1%的效果。4、针对语义词类标注中的未登录词问题,提出了基于知网概念定义的未登陆词处理方案。经研究发现,语义词类系统和知网概念存在的对应关系主要体现在指称类-实体类、陈述类-事件类两个方面,并据此制定了相应处理规则。5、针对句法语义范畴中的语义角色标注,在总结比较现有主流算法的基础上,提出了基于语义词类和语义句型框架的语义角色标注算法,采用IOB策略,利用CRF模型,结合优化的特征参数,取得了分类精度超过91.8%,系统F值达78%的较好成绩。6、基于已标注的深度语义标注语料库,通过开发相关工具软件,建立了语义词类与句法语义范畴对应关系知识库、语义句型框架库、语义句模知识库,为后续的句法语义研究和应用奠定了更好的基础。基于语义词类自动标注和句法语义范畴中的语义角色标注研究,从实践上验证了语义语法学在自然语言处理中的可行性和实用性。本文的研究成果进一步丰富了语义语法学理论与方法,为实现汉语句子深层语义分析提供了新的途径,为自然语言处理领域基于语义分析的应用系统提供了一种新的技术支撑。
员华瑞[8](2015)在《基于串到树模型的蒙汉机器翻译研究》文中研究表明近些年,随着内蒙古自治区经济社会的飞速发展,蒙古族与汉族人民的经济与文化交流越来越密切。这就使得人们对传统蒙古文与汉文之间的翻译的需求越来越大,蒙汉机器翻译技术的研究对缓解这种压力有着巨大的现实意义。本文结合传统蒙古文与汉文翻译中的一些特点,对基于串到树模型的蒙汉机器翻译方法进行了深入的研究。为了缓解蒙汉词对齐中出现的数据稀疏问题,本文对蒙汉词对齐的对数线性模型进行了深入研究。本文将传统蒙古文与汉文翻译中的一些特点融入对数线性模型框架,降低了蒙汉词对齐中的对齐错误率。本文对基于串到树模型的蒙汉机器翻译方法进行了深入的研究。该方法可以从蒙汉词对齐信息和汉语句法信息中自动抽取蒙汉串到树模板库,并利用蒙汉串到树模板库以及基于CYK的解码算法进行传统蒙古文与汉文翻译,同时利用双语短语表对候选翻译进行了一定的后处理。本文还将一些人工编写的规则改写成蒙汉串到树模板形式,加入蒙汉串到树模板库,实现了统计方法与人工方法的融合。实验证明,比起传统的基于短语的翻译模型,基于串到树的翻译模型更加适合从传统蒙古文与汉文的翻译任务,测试集在BLEU值上得到1.5个百分点的提升。基于串到树的翻译模型是一种开放模型,在串到树的翻译模型框架下更容易实现统计方法与人工规则方法的融合。
李业刚[9](2015)在《双语最大名词短语分析及应用研究》文中研究表明本文主要研究双语最大名词短语的识别对齐及其在统计机器翻译中的应用。机器翻译本质上是个语言问题,其最终解决也必须依靠语言学知识的运用。研究如何更有效地在统计机器翻译中融入有价值的句法层面的语言学知识,对于推动统计机器翻译的发展,具有重要的理论意义和应用价值。本文针对汉-英语言对,在考察了具有丰富句法和语义信息的汉英最大名词短语的结构特点后,从统计机器翻译的实际应用出发,致力于最大名词短语在双语中的扩展—双语最大名词短语的识别和对齐的研究,并论证在统计翻译模型中融入双语最大名词短语的可行性。研究内容主要包含以下四个部分:⑴提出并研究引入混合特征的汉语最大名词短语双向标注融合识别算法以汉语最大名词短语识别为研究任务,在分析现有方法的基础上,从汉语的语言学特殊性以及基于支持向量机的序列标注算法的特点出发,考查了基于混合特征的融合算法的适应性。通过理论分析和实验证明,采用词和基本组块混合标注单元的标注方法对汉语最大名词短语的识别是有效的,并且其正反向识别结果具有一定的互补性,在此基础上提出的基于“边界分歧”的双向序列标注融合算法能发掘双向识别的互补性,并达到较高的融合精度,F-1值达到88.24%,比采用传统模式的基线模型提高了2.34%。⑵提出并设计实现一体化的双语最大名词短语的识别对齐算法在汉英最大名词短语结构分析的基础上,提出了一体化的双语最大名词短语识别对齐算法。该算法有效发掘双语最大名词短语识别的互补性,利用双语序列的对位信息辅助最大名词短语的识别,建立一个双语最大名词短语识别对齐一体化模型,实现识别和对齐的双赢。实验结果表明,一体化的双语最大名词短语的识别对齐算法显着地提高了双语最大名词短语的识别对齐性能,F-1值达到81.91%,比基于句法树的方式提高了超过10个百分点。⑶提出并设计实现基于双语协同训练的最大名词短语识别算法以提高最大名词短语的识别性能和领域适应性为目标,提出了双语协同训练算法,并对增量标记的选择做了详细的论述。双语协同训练算法不同于普通的协同训练,该算法把汉英两种不同语言的句子看作一个数据集的两个不同视图,融合汉英语言特征,充分利用汉英最大名词短语识别的互补性,进行协同训练。协同训练过程中跨领域未标注数据的加入增强了识别算法的领域适应性,这对于统计机器翻译中的大规模跨领域的语料处理任务有重要的意义。实验结果表明,该算法显着提高了最大名词短语的识别性能和领域适应性,跨领域的最大名词短语识别的F-1值提高了4.52%。⑷提出并实现融入双语最大名词短语的统计机器翻译模型提出了三种由简到繁的把双语最大名词短语融入到统计翻译模型的策略,整体翻译性能逐步上升。其中,Method-III采用“分而治之”的策略,以“硬约束”的方式在统计机器翻译中融入最大名词短语,并在双语最大名词短语层面上,融合了短语翻译模型和层次短语模型,显着地改善了翻译系统的输出,复杂长句翻译效果尤其明显,BLEU值比基于短语的基线翻译模型提高了3.03%。综上所述,本论文在汉语最大名词短语识别、一体化的汉英最大名词短语识别对齐以及最大名词短语识别算法的领域适应性等方面进行了大量的实验和深入的研究,显着地提高了双语最大名词短语识别对齐性能,增强了识别算法的领域适应性,并在统计机器翻译中融入双语最大名词短语,改善了译文的质量。
王保昌[10](2014)在《中国青少年汉—英句法意识的动态迁移》文中研究说明在语言认知研究领域,有一种被普遍接受的观点,即元语言意识(也叫元语言能力,主要包括语音意识、词汇意识和句法意识)是一种对于具体语言知识进行有意识判断和操作的能力。它是抽象的、超语言的,也是个体语言能力的最重要标志。因而,当讨论双语者的语言能力时,人们普遍认为,一种语言的语音能力、词汇能力或句法能力是可以相互迁移的,即个体在一种语言中所具有的能力,一定能够在另一种语言中体现出来。然而,当我们将作为元语言意识一个部分的句法意识置于双语视野中时,一个显而易见的问题就出现了:句法意识是怎样从具体的语言能力经过抽象过程成为一种具有语言普遍性的能力的呢?或者更具体地说,两种语言的具体句法能力中,哪些是可以被抽象成具有语言普遍性的、超语言的能力,并且迁移到另一种语言呢?这就是本研究试图回答的问题。诚然,在语音意识和词汇意识的研究中,绝大部分的结论都认为,双语者在这些维度上的元语言能力是具有语言普遍性的,是可以相互迁移的。但是,我们应当认识到,语音和词汇能力在语言能力结构中属于更加基础的能力,如音首一韵脚的控制能力、音节的操控能力、词汇的任意指代能力、词素结构能力等等,它们几乎存在于所有语言,至少迄今研究所涉及的语言之中,即它们都是语言使用者普遍具有的能力。而句法意识则有其不同之处,因为,许多语言之间,由于类型学的差异,各种语言具体句法结构的差异也是显着的。这样,个体对相关语言的操控能力也就有所不同。因而,当我们承认句法意识作为一种抽象能力存在于双语者的语言共性能力之中的同时,也应当关注那些不具有语言共性的能力,以及那些从具体到抽象发展过程中具有不同速度和不同模式的共性能力。只有解决了这样的问题,才能真正揭示双语者句法意识迁移的本质和机制。本研究以高中一年级到大学一年级的在校学生为被试,对汉-英双语者句法意识迁移的动态过程进行了研究。这几个年级的学生已经具备了基础英语水平,又处在发展之中,符合我们的研究需要。研究首先通过句法测试,对500多名被试的汉、英句法意识进行因素提取,即确定汉、英句法能力是由哪些成分构成的。之后,通过这些成分观察汉、英句法能力的共性和个性。接着,以这些成分为依据,分别对200多名被试的汉、英句法意识水平进行测量,并且通过测量观察两种语言句法能力成分之间的关系,从而判断其迁移的效率及其在年级间的动态变化模式。最后,在确定句法能力可迁移成分的基础上,观测这种迁移对跨语言具体能力—阅读能力(这是被普遍认同的一种具体语言能力)的作用,从而完整地考察了双语者的句法意识如何从具体的句法操作能力抽象到具有语言普遍性的能力并且作用于跨语言的具体能力。实验结果显示:1)汉-英双语者的具体句法能力并非都能在语言教学和使用过程中抽象为具有语言普遍性的句法意识,有些句法能力是带有明显语言特异性的,它不可能成为真正意义上的元语言能力,因而,也是不可迁移的;2)在语言学习和使用的不同阶段,句法意识不同成分的迁移强度是不相同的,迁移是动态变化的;3对于可迁移的句法意识而言,其对跨语言具体能力的作用是显着的,但是,这种作用与相关语言的水平具有密切关系,即语言水平越高,句法意识的跨语言作用越显着。本研究的结果能够使我们进一步理解元语言意识“抽象性”的本质,即元语言意识来源于具体的语言使用能力并且超越具体语言的使用能力。只有超越了具体语言使用能力的语言普遍性能力,才具有语言间相互迁移的可能。
二、基于双语模型的汉语句法分析知识自动获取(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于双语模型的汉语句法分析知识自动获取(论文提纲范文)
(1)融合先验知识的蒙汉神经机器翻译研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 神经机器翻译研究现状 |
1.2.2 融合先验知识的机器翻译研究现状 |
1.2.3 蒙汉机器翻译研究现状 |
1.3 论文的主要内容 |
1.4 论文的组织结构 |
第二章 相关技术和理论分析 |
2.1 统计机器翻译相关模型 |
2.1.1 句法结构分析 |
2.1.2 统计机器翻译特征 |
2.1.3 统计机器翻译的对数线性模型 |
2.2 神经机器翻译相关模型 |
2.2.1 循环神经网络 |
2.2.2 循环神经网络变体 |
2.2.3 序列到序列模型 |
2.2.4 循环神经网络的注意力机制 |
2.3 机器翻译质量评估方法 |
2.4 本章小结 |
第三章 融合句法结构信息的蒙汉神经机器翻译研究 |
3.1 基于注意力机制的蒙汉翻译基线模型 |
3.1.1 蒙汉平行语料库的预处理 |
3.1.2 蒙汉神经机器翻译中的词嵌入 |
3.1.3 基于注意力机制的蒙汉神经机器翻译模型 |
3.2 融合句法结构信息的蒙汉翻译模型 |
3.2.1 汉语句法结构信息的获取 |
3.2.2 融合句法结构信息的蒙汉翻译模型 |
3.3 基线模型与融合句法结构信息模型的实验 |
3.3.1 数据集划分及训练参数设置 |
3.3.2 实验结果与分析 |
3.4 本章小结 |
第四章 融合外部短语信息的蒙汉神经机器翻译研究 |
4.1 蒙汉双语短语表的获取 |
4.1.1 额日和木翻译词库 |
4.1.2 蒙汉短语对的抽取与概率估计 |
4.1.3 蒙汉双语短语表预处理 |
4.2 融合外部短语信息的蒙汉翻译模型 |
4.2.1 编码器结构 |
4.2.2 解码器结构 |
4.2.3 融合外部短语信息的蒙汉翻译模型 |
4.2.4 多单词短语的空闲运行 |
4.2.5 短语的概率模型 |
4.3 融合外部短语信息模型的实验 |
4.3.1 实验数据及设置 |
4.3.2 实验结果与分析 |
4.4 本章小结 |
第五章 融合统计机器翻译建议的蒙汉神经机器翻译研究 |
5.1 蒙汉统计机器翻译模型研究 |
5.1.1 基于短语的统计机器翻译模型 |
5.1.2 统计机器翻译的对数线性模型 |
5.2 融合统计机器翻译建议的蒙汉翻译模型 |
5.2.1 统计机器翻译建议单词的生成 |
5.2.2 估计建议单词概率的SMT分类器 |
5.2.3 融合统计机器翻译建议词的门控机制 |
5.2.4 利用SMT建议替换UNK词 |
5.3 融合统计机器翻译模型的实验 |
5.3.1 模型训练与实验数据设置 |
5.3.2 实验结果与分析 |
5.3.3 实验对比与总结 |
5.4 本章小结 |
结论 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文及取得的科研成果 |
(2)汉藏神经机器翻译关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 机器翻译研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 机器翻译方法 |
1.3.1 统计机器翻译方法 |
1.3.2 神经机器翻译方法 |
1.4 主要研究内容 |
1.5 本文的创新点及贡献 |
1.6 本文组织结构 |
第2章 汉藏双语语料库构建 |
2.1 引言 |
2.2 藏文编码标准与语料库 |
2.2.1 藏文编码标准概述 |
2.2.2 语料库概述 |
2.2.3 藏文编码标准与语料库 |
2.3 汉藏双语平行语料加工规范 |
2.3.1 基本要求 |
2.3.2 数据格式 |
2.3.3 加工工具 |
2.3.4 加工流程 |
2.4 汉藏平行语料加工技术 |
2.4.1 汉藏双语语料库 |
2.4.2 汉藏双语语料获取 |
2.4.3 藏语语料预处理 |
2.5 小结 |
第3章 藏文句子边界识别 |
3.1 引言 |
3.2 藏文句子边界分析 |
3.3 藏语句子边界识别规则 |
3.4 藏语句子边界识别难点 |
3.5 藏语句子边界识别方法 |
3.5.1 Bi-LSTM+CRF架构 |
3.5.2 藏语依存句法概述 |
3.5.3 模型框架 |
3.6 实验结果与分析 |
3.7 小结 |
第4章 面向机器翻译的藏文地名识别 |
4.1 引言 |
4.2 条件随机场(CRF) |
4.3 基于CRF的藏文地名识别 |
4.3.1 CRF在藏文地名识别中的优越性 |
4.3.2 藏文地名特点及识别难点 |
4.3.3 基于CRF的藏文地名识别流程 |
4.3.4 特征选择 |
4.4 实验与结果分析 |
4.4.1 实验数据 |
4.4.2 评测指标 |
4.4.3 结果分析 |
4.4.4 系统对比 |
4.5 汉藏机器翻译中的应用 |
4.6 小结 |
第5章 基于改进字节对编码的汉藏神经机器翻译研究 |
5.1 注意力机制模型 |
5.1.1 模型概述 |
5.1.2 模型框架 |
5.2 汉藏神经机器翻译模型训练 |
5.2.1 算法概述 |
5.2.2 训练流程 |
5.3 汉藏神经机器翻译解码 |
5.3.1 贪心搜索算法 |
5.3.2 束搜索算法 |
5.4 神经机器翻译的词表处理 |
5.4.1 近似softmax函数 |
5.4.2 未登录词处理 |
5.4.3 基于词根分解的开放词汇表 |
5.5 改进的藏文字节对编码算法 |
5.5.1 字节对编码算法 |
5.5.2 改进的藏文字节对编码算法 |
5.6 实验设计与分析 |
5.6.1 实验数据 |
5.6.2 参数设置 |
5.6.3 评测方法 |
5.6.4 实验结果与分析 |
5.6.5 系统对比 |
5.7 系统架构及优化 |
5.7.1 系统化总体架构 |
5.7.2 封装改进 |
5.8 小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读博士学位期间发表的论文及科研成果 |
一、发表论文 |
二、发明专利 |
三、主持和参与科研项目 |
四、科技成果 |
致谢 |
(3)基于句法规则层次化分析的神经机器翻译研究(论文提纲范文)
摘要 |
Abstract |
符号说明 |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 机器翻译研究现状 |
1.2.2 目前存在问题 |
1.3 本文主要工作及创新点 |
1.3.1 主要研究内容 |
1.3.2 创新点 |
1.4 本文主要结构 |
1.5 本章小结 |
第二章 经典神经机器翻译技术研究 |
2.1 神经网络相关技术介绍 |
2.1.1 神经元模型 |
2.1.2 神经网络模型 |
2.1.3 激活函数 |
2.1.4 优化算法 |
2.2 神经机器翻译模型介绍 |
2.2.1 序列到序列模型 |
2.2.2 基于LSTM的神经机器翻译 |
2.2.3 基于Transformer的神经机器翻译 |
2.3 机器翻译评价指标 |
2.4 经典翻译模型对比实验 |
2.4.1 实验设计 |
2.4.2 实验结果与分析 |
2.5 本章小结 |
第三章 句法规则层次化分析研究 |
3.1 句法分析概述 |
3.1.1 句法分析介绍 |
3.1.2 句法分析方法介绍 |
3.1.3 句法规则层次化分析方法的提出 |
3.2 规则定义及构建 |
3.2.1 层次化定义及表示 |
3.2.2 词元结合规则 |
3.2.3 规则构建 |
3.3 模型算法流程 |
3.4 实验设计与结果分析 |
3.4.1 实验设计 |
3.4.2 实验结果与分析 |
3.5 本章小结 |
第四章 基于句法分析的神经机器翻译研究 |
4.1 句法分析在机器翻译中的应用 |
4.2 改进的句法分析方法 |
4.2.1 规则库的构建及分析 |
4.2.2 提取最长短语和主干句子 |
4.3 基于句法分析的神经机器翻译 |
4.3.1 整体翻译框架 |
4.3.2 翻译模型的构建 |
4.3.3 翻译及译文整合 |
4.4 实验结果与分析 |
4.4.1 语料说明 |
4.4.2 实验参数设置 |
4.4.3 句法规则层次化分析算法识别结果 |
4.4.4 翻译性能结果分析 |
4.4.5 不同句长的翻译性能分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 本文总结 |
5.2 未来展望 |
致谢 |
参考文献 |
附录A:攻读硕士学位期间参与项目及科研成果 |
(4)贫语言资源条件下的藏汉(汉藏)机器翻译关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 藏汉机器翻译中存在的问题 |
1.3 本文主要研究内容与贡献 |
1.4 论文的结构安排 |
第二章 机器翻译概述 |
2.1 引言 |
2.2 国内外研究历史和现状 |
2.2.1 外-汉(汉-外)机器翻译 |
2.2.2 国内少数民族机器翻译 |
2.2.3 国外机器翻译 |
2.3 相关技术简述 |
2.3.1 基于规则的机器翻译 |
2.3.2 基于统计的机器翻译 |
2.3.3 神经网络机器翻译 |
2.4 本章小结 |
第三章 面向藏汉机器翻译的语言资源构建方法研究 |
3.1 引言 |
3.2 相关研究 |
3.2.1 国外语言资源构建历史与现状 |
3.2.2 国内语言资源构建历史与现状 |
3.3 藏汉双语语言资源构建方法相关理论 |
3.3.1 基于web的藏语单语语言资源构建技术 |
3.3.2 藏文分词研究 |
3.3.3 藏文命名实体识别研究 |
3.3.4 藏汉双语跨语言对齐研究 |
3.4 本章实例分析 |
3.5 本章小结 |
第四章 融合单语语言模型的藏汉机器翻译方法研究 |
4.1 引言 |
4.2 相关研究 |
4.3 相关理论方法 |
4.3.1 藏语单语语言模型构建方法 |
4.3.2 藏语单语语言模型融合策略 |
4.4 实验与分析 |
4.4.1 数据处理 |
4.4.2 实验 |
4.4.3 实验分析 |
4.5 本章小结 |
第五章 基于迭代式回译策略的藏汉机器翻译方法研究 |
5.1 引言 |
5.2 相关研究 |
5.3 相关理论方法 |
5.3.1 迭代式回译策略 |
5.3.2 平行句对过滤机制 |
5.4 实验与分析 |
5.4.1 数据准备 |
5.4.2 藏汉平行句对过滤实验 |
5.4.3 迭代式回译实验 |
5.5 本章小结 |
第六章 基于跨语言模型建模的藏汉机器翻译方法研究 |
6.1 引言 |
6.2 相关研究 |
6.3 相关理论方法 |
6.3.1 语言模型 |
6.3.2 翻译语言模型建模 |
6.4 实验与分析 |
6.4.1 语料处理及规模 |
6.4.2 藏汉双语跨语言模型的建立 |
6.4.3 实验分析 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
附录1 图目录 |
附录2 表格目录 |
攻读博士学位期间的研究成果 |
(5)汉语抽象语义表示体系、资源构建及其应用研究(论文提纲范文)
摘要 |
Abstract |
引言 |
第一章 句法语义的理论发展及应用探索 |
第一节 句法语义理论研究综述 |
第二节 句法结构表示方法及资源建设概述 |
第三节 英文AMR发展现状及应用研究 |
本章小结 |
第二章 CA-CAMR表示体系 |
第一节 英汉AMR表示体系 |
第二节 CA-CAMR表示方法 |
第三节 CA-CAMR标注体系 |
第四节 CA-CAMR的特点 |
本章小结 |
第三章 CA-CAMR语料库构建 |
第一节 人机结合的CAMR语料标注方法 |
第二节 语料标注一致性统计与问题分析 |
第三节 语料标注不一致现象消解策略 |
第四节 CA-CAMR语料标注规范完善 |
本章小结 |
第四章 CA-CAMR语料库标注结果统计及分析 |
第一节 CA-CAMR基本数据及图结构统计分析 |
第二节 CA-CAMR论元共享统计分析 |
第三节 CA-CAMR特殊句法结构表示及统计分析 |
本章小结 |
第五章 CA-CAMR应用:语义省略研究 |
第一节 相关研究 |
第二节 基于CA-CAMR汉语语义省略研究 |
第三节 基于CA-CAMR省略“的”字结构自动识别与补全 |
本章小结 |
结语 |
附录 A |
参考文献 |
在读期间相关成果发表情况 |
致谢 |
(6)汉英不平衡双语者二语言语产出句法启动实验研究(论文提纲范文)
中文摘要 |
英文摘要 |
第一章 绪论 |
1.1 研究背景 |
1.2 研究问题 |
1.3 研究目的 |
1.4 研究意义 |
1.5 文本结构 |
第二章 文献综述 |
2.1 核心概念界定 |
2.2 句法启动研究 |
2.2.1 句法启动研究源起 |
2.2.2 句法启动的定性研究 |
2.2.3 句法启动的实验研究 |
2.3 言语产出研究 |
2.3.1 一语言语产出研究 |
2.3.2 双语言语产出研究 |
2.3.3 不平衡双语者二语言语产出研究 |
2.3.4 汉英不平衡双语者二语产出研究 |
2.4 本章小结 |
第三章 理论框架 |
3.1 Dell的激活扩散模型 |
3.2 Levelt的模块模型 |
3.3 Kormos的双语言语产出模型 |
3.4 本研究的理论框架和研究假设 |
3.4.1 汉英不平衡双语者言语产出的自动处理 |
3.4.2 汉英不平衡双语者言语产出模型加工模块的组成 |
3.5 本章小结 |
第四章 研究方法 |
4.1 具体研究问题 |
4.2 研究总体思路 |
4.3 具体研究方法 |
4.3.1 目标结构 |
4.3.2 研究被试 |
4.3.3 实验材料 |
4.3.4 实验流程 |
4.3.5 数据分析与综合启动量计算方法 |
4.4 本章小结 |
第五章 启动程度与启动效应 |
5.1 产出比数据与分析 |
5.2 反应时数据与分析 |
5.3 综合启动量数据与分析 |
5.4 结果与讨论 |
5.5 本章小结 |
第六章 启动呈现方式与启动效应 |
6.1 控制无启动Kz组 ABCD实验的组内检验值 |
6.2 双向启动Q1组ABCD实验的组内检验值 |
6.2.1 同一启动语种时视、听启动通道分析 |
6.2.2 同一启动通道时英、汉启动语种分析 |
6.3 单向启动Q2组ABCD实验的组内检验值 |
6.3.1 同一启动语种时视、听启动通道分析 |
6.3.2 同一启动通道时英、汉启动语种分析 |
6.4 结果与讨论 |
6.5 本章小结 |
第七章 启动效应的其他影响因素 |
7.1 二语水平与启动效应 |
7.2 动词重复与启动效应 |
7.3 名词生命度等级与句法启动效应 |
7.4 个体差异与句法启动效应 |
7.5 结果与讨论 |
7.6 本章小结 |
第八章 结论与启示 |
8.1 研究结果 |
8.2 研究启示 |
8.2.1 理论启示 |
8.2.2 应用价值 |
8.2.3 对外语教学的启示 |
8.3 研究的局限性及后续研究发展 |
参考文献 |
附录 |
后记 |
在学期间发表论文 |
(7)现代汉语深度语义标注语料库研究(论文提纲范文)
摘要 |
Abstract |
绪论 |
一、学术背景与选题说明 |
二、研究价值和研究目标 |
三、研究思路和研究方法 |
四、结构安排和基本术语 |
第一章 语义知识库、语料库建设概述 |
第一节 语言知识库与语料库 |
一、语言知识库 |
二、语料库 |
三、语言知识库与语料库的关系 |
第二节 语义知识库建设概况 |
一、词义知识库建设现状 |
二、句法语义知识库建设现状 |
第三节 语义语料库建设现状 |
第二章 深度语义标注语料库建设思路 |
第一节 语义标注语料库建设的理论指导 |
第二节 语料库标注规范 |
一、规范制定的原则 |
二、制定规范的策略 |
三、加工的一致性要求 |
第三节 语料库标注的原则及注意问题 |
一、语料库标注的原则 |
二、语料库标注应注意的问题 |
第四节 《深度语义标注语料库》介绍 |
一、语料的来源 |
二、语料库的构成及规模 |
第五节 语料库加工流程及标注样例 |
第三章 深度语义标注语料库的语义词类系统 |
第一节 汉语语义词类系统研究概况 |
第二节 汉语语义词类系统的比较 |
一、语义分类为主,兼顾传统语法词类 |
二、传统语法词类为纲,语义词类为目 |
三、哲学观点为纲,语义词类为目 |
第三节 汉语语义词类系统构建的目的 |
一、为语言知识库的研究提供新思路 |
二、为中文信息处理的研究提供基础 |
三、服务于现代汉语语义网络的建构研究 |
第四节 语义词类的分类体系 |
一、语义词类系统的分类原则 |
二、语义词类系统的分类框架 |
三、语义词类系统的标注集 |
第四章 语义词类自动标注研究 |
第一节 系统开发方案 |
一、性能指标要求 |
二、语义词类的标注困难 |
三、系统开发步骤 |
第二节 语义词类词典的构建 |
一、词典构建方式 |
二、本系统词典的结构 |
三、语义词类词典制作工具的功能 |
第三节 语义词类自动标注的模型算法及处理方式 |
一、语言统计模型 |
二、标注算法 |
三、系统模型参数获取 |
四、基于知网概念定义的未登陆词处理 |
五、数据稀疏问题的处理 |
第四节 技术实现及测试结果分析 |
一、系统的开发环境 |
二、技术实现 |
三、系统实现描述 |
四、软件功能及界面 |
五、测试结果及分析 |
第五章 深度语义标注库的句法语义范畴系统 |
第一节 句法语义研究现状 |
一、国外句法语义研究 |
二、汉语句法语义研究 |
第二节 语义语法学的句法语义范畴体系 |
第三节 句法语义范畴体系中的陈述结构框架 |
一、陈述结核范畴体系 |
二、基本角色范畴体系 |
三、附加角色范畴体系 |
第四节 句法语义范畴体系中的指称结构框架 |
一、指称结核范畴体系 |
二、结核/修饰范畴体系 |
三、修饰范畴体系 |
第五节 句法语义范畴体系中的其他句法范畴 |
一、独语范畴 |
二、情态范畴和语气范畴 |
三、关联范畴 |
第六节 句法语义范畴标注集 |
第六章 句法语义分析技术研究 |
第一节 句法语义分析技术研究现状 |
第二节 句法语义分析的常用理论分析 |
一、格语法 |
二、框架语义学 |
三、概念依存理论 |
四、依存语法理论 |
第三节 句法语义分析的常用方法比较 |
第七章 句法语义范畴自动标注研究 |
第一节 理论依据及标注任务 |
一、系统开发的理论依据 |
二、标注任务描述 |
第二节 标注方案及标注体系 |
一、标注任务方案 |
二、句法语义范畴体系标记及含义 |
第三节 相关语义知识库的构建 |
一、语义词类与句法语义范畴对应关系知识库 |
二、语义句型框架库的构建 |
三、语义句模知识库的构建 |
第四节 基于语义句型框架的语义角色标注研究 |
一、语义角色的标注策略 |
二、结核的确定 |
三、条件随机场(CRF)简介 |
四、特征描叙和特征选择 |
第五节 测试及结果分析 |
一、实验语料来源 |
二、评价方法 |
三、实验结果及分析 |
四、句法语义范畴辅助标注工具功能介绍 |
结论 |
参考文献 |
附录 |
一、现代汉语语义词类标注系统规范(部分) |
二、句法语义范畴标注规范(部分) |
(8)基于串到树模型的蒙汉机器翻译研究(论文提纲范文)
摘要 |
Abstract |
第一章 引文 |
1.1 统计机器翻译 |
1.1.1 基于词的翻译模型 |
1.1.2 基于短语的翻译模型 |
1.1.3 基于句法的翻译模型 |
1.2 蒙汉统计机器翻译 |
1.2.1 蒙汉统计机器翻译现状 |
1.2.2 蒙汉统计机器翻译的特点 |
1.3 论文组织结构 |
第二章 基于对数线性模型的蒙汉词对齐 |
2.1 蒙汉词对齐的对数线性模型 |
2.2 特征选择 |
2.2.1 双语词典 |
2.2.2 交叉计数与连线计数 |
2.2.3 IBM模型 |
2.2.4 蒙汉词性转移模型 |
2.2.5 词干的IBM模型 |
2.3 训练 |
2.3.1 通用迭代算法 |
2.3.2 最小错误率训练 |
2.4 搜索 |
2.5 实验 |
2.5.1 词对齐评测标准 |
2.5.2 实验设置 |
2.6 特征分析 |
2.6.1 IBM模型3特征分析 |
2.6.2 词干提取的IBM模型3特征分析 |
2.6.3 词性转移模型特征分析 |
2.6.4 连线计数与交叉计数特征分析 |
2.6.5 双语词典特征分析 |
2.7 本章小结 |
第三章 基于串到树模型的蒙汉机器翻译 |
3.1 蒙汉串到树模型 |
3.1.1 蒙汉串到树模板 |
3.1.2 蒙汉串到树对齐模型的形式化表示 |
3.2 蒙汉串到树模型的训练 |
3.2.1 标识可抽取节点 |
3.2.2 提取蒙汉串到树模板 |
3.2.3 构造组合蒙汉串到树模板 |
3.2.4 规则的二叉化 |
3.2.5 模糊匹配 |
3.2.6 蒙汉串到树模板的概率估计 |
3.2.7 人工撰写规则的引入 |
3.3 解码器设计 |
3.3.1 CYK算法 |
3.3.2 剪枝策略 |
3.3.3 双语短语的利用 |
3.4 本章小结 |
第四章 实验与实验分析 |
4.1 实验数据及预处理 |
4.2 实验流程 |
4.3 实验数据 |
4.3.1 实验参数 |
4.3.2 实验与实验结果分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 本文工作总结 |
5.2 未来工作展望 |
参考文献 |
致谢 |
(9)双语最大名词短语分析及应用研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 论文研究的目的和意义 |
1.2 国内外研究现状及发展趋势 |
1.2.1 最大名词短语的研究现状及发展趋势 |
1.2.2 统计机器翻译的研究现状及发展趋势 |
1.3 论文的研究内容 |
1.4 论文的结构安排 |
第2章 双语最大名词短语简析 |
2.1 汉英双语最大名词短语特性 |
2.2 双语最大名词短语的定义 |
2.3 双语最大名词短语识别对齐的问题描述和性能评价 |
2.3.1 问题描述 |
2.3.2 性能评价 |
2.4 双语最大名词短语的中心词 |
2.5 汉英最大名词短语识别的互补性 |
本章小结 |
第3章 引入混合特征的最大名词短语双向标注融合算法 |
3.1 机器学习算法 |
3.1.1 支持向量机 |
3.1.2 条件随机场 |
3.2 基于“边界分歧”的序列标注融合算法 |
3.3 特征选择 |
3.3.1 词层面的特征 |
3.3.2 基本组块层面的特征 |
3.3.3 词和基本组块混合特征 |
3.3.4 标点分类特征 |
3.4 实验结果及分析 |
3.4.1 实验设置 |
3.4.2 特征选择实验 |
3.4.3 双向融合实验 |
3.4.4 比较实验 |
本章小结 |
第4章 双语最大名词短语识别对齐 |
4.1 基于句法分析的双语最大名词短语获取 |
4.1.1 基于双端句法分析的最大名词短语对获取 |
4.1.2 基于单端句法分析的最大名词短语对获取 |
4.2 一体化的双语最大名词短语识别对齐算法 |
4.2.1 粗识别对齐 |
4.2.2 扩展候选最大名词短语对 |
4.2.3 单语句法信任度 |
4.2.4 双语对齐信任度 |
4.2.5 最优假设搜索算法 |
4.3 实验结果及分析 |
4.3.1 实验设置 |
4.3.2 实验结果与分析 |
本章小结 |
第5章 双语协同训练的最大名词短语识别算法 |
5.1 双语协同训练算法 |
5.2 双语对齐标注一致率 |
5.3 标记投射修正模型 |
5.3.1 投射最大名词短语扩展 |
5.3.2 最优假设搜索 |
5.4 实验结果及分析 |
5.4.1 实验设置 |
5.4.2 Baseline实验 |
5.4.3 双语Co-training算法实验 |
5.4.4 增量标注选择策略比较 |
本章小结 |
第6章 融入双语最大名词短语的机器翻译系统及实现 |
6.1 短语翻译模型的特征 |
6.2 融入双语最大名词短语的翻译模型 |
6.2.1 Method-I |
6.2.2 Method-II |
6.2.3 Method-III |
6.3 实验结果及分析 |
6.3.1 实验设置 |
6.3.2 Method-I实验 |
6.3.3 Method-II和Method-III实验 |
本章小结 |
结论 |
参考文献 |
攻读学位期间发表论文与研究成果清单 |
致谢 |
作者简介 |
(10)中国青少年汉—英句法意识的动态迁移(论文提纲范文)
中文摘要 |
英文摘要 |
中文文摘 |
第一章 绪论 |
第一节 研究背景 |
第二节 研究问题 |
第三节 研究内容 |
第四节 研究目标 |
第五节 关键术语的定义 |
一 双语者 |
二 句法意识 |
三 阅读 |
四 智力 |
五 语言水平 |
第六节 论文结构 |
第二章 文献综述 |
第一节 从元语言意识到句法意识 |
一 “元”概念的由来和元认知 |
二 元语言 |
三 元语言意识 |
四 元语言意识的成分 |
五 句法意识与其他元语言意识之间的联系与区别 |
第二节 句法意识的测量方法 |
第三节 句法意识研究的主要方面 |
一 句法意识的发展过程与规律 |
二 影响句法意识发展的因素 |
三 句法意识的功能:对阅读能力发展的促进作用 |
四 二语句法意识研究 |
五 对前人研究成果的简要总结与评论 |
第四节 问题的提出 |
一 话题的获得 |
二 问题的理据 |
三 研究问题 |
第三章 总体研究思路 |
第一节 对问题未能解决原因的追寻 |
一 未划分句法意识结构的成分 |
二 对迁移的动态性重视不够 |
三 原因总结 |
第二节 本研究的总体思路 |
一 划分句法意识的构成成分 |
二 研究主题的分解 |
第四章 研究一:汉、英语句法意识结构 |
第一节 研究目的与理论假设 |
第二节 研究方法 |
一 被试选择 |
二 测试工具 |
三 数据收集过程 |
第三节 统计分析过程与结果 |
一 汉语句法意识的结构成分 |
二 英语句法意识的结构成分 |
第四节 讨论 |
第五节 本章小结 |
第五章 研究二:双语者汉、英句法意识的发展规律 |
第一节 研究问题 |
第二节 研究方法 |
一 被试情况 |
二 测试工具与计分方式 |
三 数据收集 |
第三节 数据分析与结果 |
一 汉语句法意识发展过程与规律 |
二 英语句法意识发展过程与规律 |
三 汉、英共性句法意识发展之间的关系 |
第四节 讨论 |
第五节 本章小结 |
第六章 研究三:双语者汉、英句法意识的迁移 |
第一节 研究问题 |
第二节 理论假设 |
第三节 研究方法 |
一 被试 |
二 测量工具 |
三 数据收集 |
四 数据分析思路与方法 |
第四节 数据分析过程与结果 |
一 数据整理和检验 |
二 汉、英句法意识之间的共变关系 |
三 汉、英句法意识之间的迁移 |
第五节 讨论 |
第六节 本章小结 |
第七章 研究四:汉、英句法意识与跨语言阅读能力的关系 |
第一节 研究问题 |
第二节 研究方法 |
一 被试 |
二 测量工具 |
三 数据收集 |
第三节 数据分析过程与结果 |
一 数据整理与准备 |
二 数据分析的思路 |
三 句法意识迁移对阅读的跨语言效应 |
四 句法意识迁移对跨语言阅读作用的路径 |
第四节 讨论 |
第五节 本章小结 |
第八章 总讨论与结论 |
第一节 双语句法意识的形成与发展规律 |
第二节 双语者句法意识之间的迁移 |
第三节 句法意识的本质特性 |
第四节 研究的意义及其局限性 |
第五节 对未来研究的建议 |
结论 |
参考文献 |
附录1 |
附录2 |
附录3 |
附录4 |
附录5 |
附录6 |
致谢 |
攻读学位期间承担的科研任务与主要成果 |
个人简历 |
四、基于双语模型的汉语句法分析知识自动获取(论文参考文献)
- [1]融合先验知识的蒙汉神经机器翻译研究[D]. 庞蕊. 内蒙古工业大学, 2021(01)
- [2]汉藏神经机器翻译关键技术研究[D]. 头旦才让. 西藏大学, 2021(02)
- [3]基于句法规则层次化分析的神经机器翻译研究[D]. 张海玲. 昆明理工大学, 2021(01)
- [4]贫语言资源条件下的藏汉(汉藏)机器翻译关键技术研究[D]. 慈祯嘉措. 青海师范大学, 2020(02)
- [5]汉语抽象语义表示体系、资源构建及其应用研究[D]. 戴茹冰. 南京师范大学, 2020(02)
- [6]汉英不平衡双语者二语言语产出句法启动实验研究[D]. 王柔化. 东北师范大学, 2019(04)
- [7]现代汉语深度语义标注语料库研究[D]. 贺胜. 南京师范大学, 2017(06)
- [8]基于串到树模型的蒙汉机器翻译研究[D]. 员华瑞. 内蒙古大学, 2015(12)
- [9]双语最大名词短语分析及应用研究[D]. 李业刚. 北京理工大学, 2015(04)
- [10]中国青少年汉—英句法意识的动态迁移[D]. 王保昌. 福建师范大学, 2014(01)