一、基于主成分分析提升朴素贝叶斯(论文文献综述)
李思奇,吕王勇,邓柙,陈雯[1](2022)在《基于改进PCA的朴素贝叶斯分类算法》文中研究说明朴素贝叶斯是一种处理分类问题的常用方法,但它的属性条件独立性假设在实际应用中难以成立,导致其分类性能降低。针对这一问题,文章提出了基于改进PCA的朴素贝叶斯分类算法,该算法通过Pearson和Kendall系数计算出属性间的相关性大小,基于主成分分析筛选出新的属性集,使其尽量满足条件独立性假设,并对新数据集进行朴素贝叶斯分类。实验结果表明,该方法有效地提高了分类准确率。
李疆[2](2021)在《基于机器学习的阿克苏红富士品种鉴别方法研究》文中进行了进一步梳理阿克苏红富士由于其甜爽的口感以及独特的“糖心”成为阿克苏地区特产,随着阿克苏红富士品牌影响力的增加,市场也逐渐出现售卖假冒产品的现象。为提升阿克苏红富士品牌效应,使阿克苏红富士享誉全国,本文基于机器学习方法研究阿克苏红富士品种鉴别,利用高光谱成像技术,提供苹果品种快速鉴别方法,为了提高分类模型准确率,使用化学计量法采集理化数据,与光谱数据模型融合,减少建立模型所需样本数量。本文研究内容及结果如下:(1)本文使用了9种预处理方法(一阶导数、标准正态变换、多元散射校正、主成分分析法、基于核函数的主成分分析法、线性判别分析、局部线性嵌入、因子分析、多维尺度分析),一阶导数和多元散射处理光谱噪声与主成分分析和因子分析选取特征变量的分类方法准确率较高。(2)用化学计量法采集苹果理化含量数据,包含可溶性固形物、硬度、p H值、水分、重量和体积,通过建模过程中不断控制数据变量,最终确定与苹果分类有较大相关性的理化成分有:可溶性固形物、硬度、p H值。根据上述9种方法构造分类器,实验结果为随机森林、K近邻与朴素贝叶斯方法较好,分类准确率均在0.77以上,多层感知机较差仅有0.547。(3)对降噪后的光谱数据使用PCA、FCA、MDS等算法提取光谱特征,精简模型输入变量,其中PCA降维至5个特征向量相关系数之和占97%。分别采用KNN、朴素贝叶斯算法、二次判别分析等9种方法组合,共建立162种苹果分类模型,实验结果为QDA-D1-PCA模型的分类效果最佳,其准确率是0.862。(4)成功建立苹果光谱数据与理化数据分类模型,为提升其准确率,采用模型融合方法将苹果高光谱数据模型与理化含量数据模型相融合,从而提升模型平均准确率。本文融合模型采用投票法,选择5个准确率较高的高光谱数据模型与理化含量数据模型进行融合,通过不断的探索,最终采用5:2的融合方式将融合模型分类准确率提升为90.5%,阿克苏红富士鉴别率为93.8%。
李思奇[3](2021)在《朴素贝叶斯分类算法的改进研究》文中研究指明分类作为数据挖掘中的一个重要研究分支,被广泛应用于文本、生物学、多媒体等各个领域,它主要通过对已知类别标签的训练样本集进行分析,构造出合适的判别模型,并按照对应的分类规则对未知类别的待判样本进行预测,赋予其不同的类别标签.朴素贝叶斯作为机器学习探究领域中较为经典的分类算法,它的理论方法简单,且运行效率高、分类性能好,但它的前提是假定属性之间在给定类别下是相互独立的,这想要在实际中被满足是很难实现的,所以使用时会具有一定的局限性,同时,它是针对所有样本进行建模,并没有单独考虑每一个测试样本.所以为了解决以上问题,本文在朴素贝叶斯算法的基础上,考虑属性和样本本身对分类的影响,提出了四种不同的改进方法,以达到提高分类准确率的目的,其研究工作如下:(1)从样本量的角度,提出了基于互信息的改进朴素贝叶斯分类算法.首先指出小样本下可能出现零概率事件,然后说明用拉普拉斯平滑处理的不合理性,再给出互信息的定义,通过互信息来修改条件概率,得到最终的预测结果.并通过UCI数据集进行实证分析.结果表明,分类精度有了明显的提高.(2)从样本分布的角度,提出了基于k近邻的朴素贝叶斯加权分类算法.首先考虑待测样本和训练样本之间的分布对分类结果的影响,给出了k近邻的定义,选择出近邻样本,同时计算出每个待测样本属于各类的权重大小,再结合朴素贝叶斯建立判别模型.在实验过程中,分别从时间、空间复杂度和分类准确率与k近邻算法进行对比,得到了较好的分类效果.(3)从属性选择的角度,提出了基于改进PCA的朴素贝叶斯分类算法.首先说明传统的主成分分析方法只适用于数值型数据,而不适用于混合数据,然后引入了Kendall系数,并结合Pearson系数建立新的相关系数矩阵,构造出新的属性集,建立判别模型.实验结果表明提高了分类性能.(4)从属性选择和属性加权的角度,提出了基于属性约简的加权朴素贝叶斯分类算法.首先依照各属性不同取值的分类能力及属性间的对称不确定性大小,去除了无关属性和冗余属性,然后再结合属性与类变量及属性间的相关性对各属性进行加权,最后对待判样本分类.由对UCI上的多个数据集进行实验分析可知,相比于其余算法,改进后的算法有效的改善了其分类效果.
盛静文,于艳丽,江开忠[4](2020)在《基于主成分的稀疏贝叶斯信用分类研究》文中进行了进一步梳理针对传统信用评价方法分类精度较低、数据集属性变量间存在相关性等问题,提出基于主成分分析的稀疏贝叶斯学习(PCA-SBL)算法。首先对数据集特征变量进行主成分分析,使降维后的变量无相关性;其次,对主成分分析后的数据进行稀疏贝叶斯分类;最后将PCA-SBL分类方法分类精度与传统分类方法精度进行比较。分析发现,在German Credit Data和Australian Credit Data上,与传统KNN、朴素贝叶斯、SVM、随机森林、决策树相比,改进的SBL算法分类精度平均提高了5.26%、4.65%、2.11%、2.125%、4.66%,与稀疏贝叶斯学习算法(SBL)相比,平均提高0.965%,从而证明PCA-SBL算法具有更高的分类效果。
谢昆明[5](2020)在《基于MIC改进的PCA和CFS特征降维算法研究》文中指出大数据时代的到来和信息技术的发展产生了大量数据,机器学习以及近年来的深度学习等技术是探索数据的重要手段和有力武器,其关键点在于特征的处理和提取上。特征工程是机器学习重要预备阶段,数据特征对模型学习的效果至关重要。数据中往往存在着对数据分析无关或者多余的特征,存在着冗余信息,这些冗余信息和噪声,不仅会影响分析数据的结果精度,还会增加较多的计算量。特征降维可精简数据结构,增加模型的可解释性,减少模型计算量,并提升模型学习效果。特征降维可分为两个大的方面:特征抽取和特征选择。本文旨在对特征降维算法进行改进优化和推广,提高特征降维的有效性,使其适用性更强。本文对特征降维中的特征抽取算法主成分分析(Principal component analysis,PCA)和特征选择算法中基于关联性的特征选择算法(Correlation-based Feature Selection algorithm,CFS),利用最大信息系数(Maximum information coefficient,MIC)的优势分别对这两者进行改进分析研究。本文主要研究工作如下:第一,针对主成分分析中协方差矩阵只能衡量变量之间线性关系的局限和要求数据服从高斯分布的特点,提出基于Yeo-Johnson变换和MIC的PCA特征抽取算法(YJ-MICPCA)。首先经过转化数据满足PCA中高斯分布的假设,并将PCA中数据之间存在的线性关系假设推广到非线性;然后通过模拟数据和实验在UCI机器学习仓库中公开数据集从多方面验证了算法YJ-MICPCA的有效性,结果表明YJ-MICPCA较传统PCA有更好的效果;最后将YJ-MICPCA和其他常用非线性特征抽取算法比较,结果表明YJ-MICPCA也具有一定优势。第二,针对CFS在回归任务中线性相关系数只能度量变量间线性相关性的局限;以及分类任务中对称不确定性度量(SU)的分母过大,分子中互信息对于连续变量不容易计算且结果受离散化方式的影响的不足,提出一种基于MIC的CFS特征选择算法(MICCFS)。首先统一回归和分类中的变量间相关性的度量方式,运用MIC度量,再依据评价函数进行特征子集搜索;然后分别就回归任务和分类任务在UCI机器学习仓库中公开数据集上从多方面验证对比MICCFS和CFS的有效性,结果表明MICCFS较优;最后分类中将MICCFS与其他常用特征选择算法比较,结果表明总体上MICCFS也有一定优势。
郑鑫[6](2020)在《三维颅骨相似性度量和性别鉴定方法研究》文中提出基于三维模型的颅骨相似度评价方法,可以用来检测不同颅骨之间的相似程度,进而为推测面貌的相似度提供参考、为颅骨性别鉴定提供可靠依据,从而辅助提高颅面复原的效果以及基于颅骨的身份认证的准确性。为促进颅面形态学的研究,提高颅面复原的精度,本文进行了基于三维颅骨的相似度评价研究,从颅骨特征提取和相似性度量两方面进行研究;同时将三维颅骨相似度评价的研究方法应用于颅骨的性别鉴定中,为性别鉴定的研究提供新的思路和方法。本文的主要研究内容包括:1.基于SPCA的颅骨相似度评价方法将三维颅骨数据,利用SPCA获取稀疏主成分,将测试颅骨数据映射到稀疏主成分空间中,进行降维。由此将三维颅骨高维数据简化为能够表征颅骨的低维特征向量,将该特征向量通过均方误差、归一化内积不同的相似性度量方法找出最相似颅骨。将基于SPCA的颅骨相似度评价方法与基于PCA的颅骨相似度评价方法进行比较,实验结果表明,SPCA提取的颅骨特征稳定性更高,基于SPCA的颅骨相似度评价方法的精确度、可解释性、计算速度等方面均优于基于PCA的颅骨相似度评价方法。2.基于Wasserstein距离的颅骨相似度评价方法利用SPCA和PCA对三维颅骨高维数据进行特征提取,分别获得能够表征颅骨的特征向量,然后将Wasserstein距离作为颅骨的相似性度量标准,计算颅骨特征向量的Wasserstein距离值,进而给出颅骨特征向量之间的相似度,即颅骨之间的相似度,并给出颅骨对应的相似度最高的颅骨编号。将基于Wasserstein距离的颅骨相似度评价方法与基于均方误差的颅骨相似度评价方法和基于归一化内积的颅骨相似度评价方法进行比较,实验结果表明:基于Wasserstein距离的颅骨相似度评价方法,在精确性、降低存储空间、避免小数溢出等方面均优于另外两种方法。3.基于特征集合和朴素贝叶斯的颅骨性别鉴定方法利用SPCA对三维颅骨数据进行特征提取,获得颅骨的区域特征;基于颅骨边缘信息提取把鼻子边界点的各个轴向的最大值、最小值、欧式距离,眼睛边界点的矩形度、圆形度以及基于颅骨颅腔的各个轴向的最大值、最小值、欧式距离等信息作为颅骨局部特征。将颅骨区域特征和局部特征组合,构成颅骨特征集合,并将其作为朴素贝叶斯分类方法的输入,由朴素贝叶斯分类方法给出颅骨性别鉴定结果,该颅骨性别鉴定方法,鉴定准确率最高达到91.58%。
张莹,杜井涛,吴怀岗[7](2020)在《基于最大信息系数的主成分分析贝叶斯分类算法》文中提出如何对大量的原始数据样本进行合理分类并试图发现其中的相关关系一直是研究者们探讨的核心问题。现有的主成分分析方法和贝叶斯分类算法仅能在线性数据关系中取得较好的实验结果,但在处理非线性函数关系和综合性的非函数依赖关系问题中适用性不强。因此,笔者在基础主成分分析贝叶斯分类算法的条件上,创新性地引入信息论中的相关关系分析方法——最大信息系数(MIC),并提出以最大信息系数和主成分分析方法为基础的贝叶斯分类算法。通过仿真模拟实验得出,笔者提出的新型分类算法具有一定的准确性和可行性。
赖晓锋[8](2020)在《基于改进朴素贝叶斯的新闻分类研究》文中提出随着人工智能的高速发展和数据挖掘技术的不断更新,文本分类已经成为自然语言处理中最常用的应用场景,其在舆情分析、机器翻译和聊天机器人等领域都有广泛的应用。现阶段文本分类技术有很多,但是朴素贝叶斯分类模型(Naive Bayes Classifier,简称NBC)已经成为最常用的分类模型之一。朴素贝叶斯分类模型在众多领域中均有很好的分类性能,但该分类模型也具有一定的局限性,例如需要满足属性之间相互独立的条件假设,而该条件假设在实际应用中却经常难以满足。基于该条件假设研究者们从扩展结构、特征选择、特征加权和朴素贝叶斯模型与其他模型相结合四个方面做出了推广,并取得了较好的效果。本文在前人的研究基础上,利用主成分分析(Principal Component Analysis,简称PCA)改进了朴素贝叶斯分类模型。基于主成分分析的朴素贝叶斯分类模型,简称PCAWNBC模型。本文利用主成分分析的主成分之间是相互独立性质,有效缓解了朴素贝叶斯相互独立的条件假设;再利用主成分的方差贡献率作为属性的特征权重,消除了同一属性对不同类别具有相同值的(权重均为1)缺陷。通过上述的分析后,本文将PCAWNBC模型应用到新闻文本分类的实例中。采用网络爬虫技术,使用Python从网上抓取十类,每类1200篇,共计12000篇新闻文本作为训练集。以12000篇新闻随机选3000、6000、9000及12000篇为横向,以NBC、PCAWNBC、逻辑回归、K近邻及支持向量机为纵向,从准确率、召回率、1F值和训练时间四个方向评估各分类模型在不同数据集上的分类性能。得到如下结论:在不同数据集上,PCAWNBC模型相比NBC模型的准确率均约提升5%;当数据量增大时,PCAWNBC模型的分类性能比NBC、逻辑回归、K近邻及支持向量机效果会更好。
夏庭伟[9](2020)在《基于机器学习构建2型糖尿病并发肾脏病中西医多模态特征融合预测模型》文中进行了进一步梳理目的:本研究使用多种机器学习算法,构建标准化的证型、舌图像获取途径。再与临床综合数据特征融合,构建2型糖尿病并发肾病混合深度神经网络诊断预测模型。通过模型对比评估,探索中医证候与舌图像对疾病风险预测的实际意义。方法:1.数据采集:按照依据相应的诊断标准,纳入2型糖尿病患者。采集患者的中医四诊信息,根据证型诊断标准,采用“症状-证素-辨证指南-专家经验”的方式,分别标注所有患者证型作为原始数据。使用统一的图像采集装置,按照统一标准采集患者舌面图像。采集患者临床综合数据,包括一般信息、辅助检查指标等。依据糖尿病肾病的诊断标准,将患者标注为非糖尿病肾病、糖尿病肾病。2.数据预处理:对原始数据进行集成,去除异常数据、重复数据和错误数据并将格式进行规范化,采用特征平均值对缺失值进行填补。对二分类变量采用独热编码(One-Hot),连续性变量进行归一化处理。采用主成分分析或探索性因子分析进行特征降维,应用经典的洗牌算法(Shuffle)将数据顺序打乱,使数据分布均匀,按照8:2的比例将数据分为训练集与测试集。3.证候分类模型构建:筛去频率<10%的症状条目。将剩余的中医四诊信息,采用探索性因子分析进行特征降维,获得公共因子结构。降维之后的公共因子,分别使用支持向量机(Support Vector Machine,SVM)、决策树(Decision Tree,DT)、多项式朴素贝叶斯(Multinomial Naive Bayes,MNB)、K最近邻(k-Nearest Neighbor,KNN)、bagging_K邻近、bagging_决策树、随机森林(Random Forest,RF)、自适应增强(Adaptive Boosting,adaboost)、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、人工神经网络等多种机器算法,构建2型糖尿病证候分类模型,比较模型预测准确度,判断模型分类性能。4.舌图像自动分割模型构建:将患者舌面图像,使用基于python3.6的labellme软件对舌体区域进行标记。采用多任务卷积神经网络,构建舌体区域边界检测定位模型。采用医学图像分割算法attention U-net提取出图像中的舌体,以Ground-truth(真值)图像为标准,计算平均交并比(MIo U)91.05%、像素精确度(PA)等指标,评估舌体分割的结果。5.中西医多模态特征融合:纳入患者一般信息、辅助检查指标等,数据预处理与特征降维之后,采用上述相同的多种机器学习算法构建模型一。将证型数据按照分类变量进行One-hot处理之后,在前端与模型一的公共因子进行融合,采用上述多种机器学习算法构建模型二。在后端进一步按照0.2-0.4的权重,采用深度学习算法融合舌图像数据训练的单分类器模型,构建模型三。采用准确度、特异性、敏感性,对模型预测效果进行评价。结果:1.一般信息特征分布:纳入2型糖尿病患者868例,其中男性521例,占比60.02%;女性347例,占比39.98%。患者平均年龄56.2±11.84岁,以61-70年龄段人数最多。根据BMI分布,超重与肥胖占比达到52.99%。2.主要症状、证候分布:症状(不含舌脉)中,频率大于10%的症状共29项。所有脉象中,频率大于10%的症状共6项。证型分布中,气阴两虚证151例为最多,占比17.40%;其次为气阴两虚兼血瘀149例,占比17.17%。各证型在并发肾病与无肾病的病例内部,2型糖尿病无肾病较多的证型为气阴两虚19.94%、气阴两虚兼血瘀17.85%、肝肾阴虚15.76%;而并发肾病较多的证型为气阴两虚兼血瘀16.26%、肝肾阴虚兼血瘀14.63%、肝肾阴虚12.60%。3.证素分布:采集到的症状指标,筛去频率<10%症状条目后,剩下42项症状,采用探索性分析进行效果优于主成分分析。对42项症状指标进行降维处理,当提取15个公共因子的时候为最优,累计方差贡献率为67.5229%。15项公共因子所包含的病位证素频率从高到低分别为肝、肾、胃、心、脾,病性证素频率从高到低分别是热盛、阴虚、气虚、阳虚、瘀血、痰浊、血虚。4.证候分类预测模型:准确度分别为支持向量机62.65%,决策树61.18%,多项式朴素贝叶斯77.06%,K最近邻64.12%,bagging_K邻近74.12%,bagging_决策树68.53%,随机森林75.36%,自适应增强56.48%,梯度提升决策树79.06%,人工神经网络87.70%。5.舌图像分割模型:采用多任务卷积神经网络(MTCNN)构建级联CNNs的架构,为三种网络的组合(P-Net、R-Net、O-Net)。效果显示,边界检测平均精确度60%(AP60)为59.5%,交并比(Io U)为93.2%,明显优于VJ人脸检测算法、HOG方向梯度直方图算法、DPM可变形部件算法。舌边特征点定位平均错误率(MER)为2.5%,故障率(FR)2.9%,效果优于ASM主动形状模型算法、AAM主动外观模型算法、CPR级联形状回归模型算法。采用深度学习构建起舌图像分割模型,提取出图像中的舌体,算法分割精度Ground-truth(真值)得出平均交并比(MIo U)91.05%、像素精确度(PA)93.31%。6.中西医特征融合的疾病预测模型:对患者53项临床综合数据指标进行特征降维,主成分分析的效果总体是优于因子分析,当提取20个公共因子的时候为最优,累计方差贡献率为72.9351%。本研究所构建的模型一所采用算法中,准确度最高为人工神经网络81.16%,灵敏度最高为人工神经网络82.57%,特异度最高为人工神经网络84.80%。模型二所采用算法中,准确度最高为人工神经网络85.13%,灵敏度最高为人工神经网络83.07%,特异度最高为人工神经网络85.25%。模型三,准确度为88.46%,灵敏度79.36%,特异度91.51%。结论:1.2型糖尿病病位证素主要包括肝、肾、胃、心、脾,病性证素主要包括热盛、阴虚、气虚、阳虚、瘀血、痰浊、血虚。无肾病患者证型以气阴两虚、气阴两虚兼血瘀、肝肾阴虚为主,并发肾病的患者证型以气阴两虚兼血瘀、肝肾阴虚兼血瘀、肝肾阴虚为主。2.采用探索性因子分析特征降维,结合神经网络构建证候分类模型,可实现2型糖尿病证候标准化诊断。3.采用深度学习可构建舌图像自动分割模型,实现舌图像的客观化提取。4.在上述基础上,构建起融合临床综合数据、证型、舌图像数据的混合深度神经网络疾病预测方法,该方法采用主成分分析、探索性因子分析结合深度神经网络结构,具有较好预测性能。5.证型、舌图像对促进疾病预测模型的效率具有正向作用,对中西医多模态特征进行融合,可提高2型糖尿病并发肾病预测模型的效率。
周成栋[10](2020)在《基于大数据平台的内蒙古地闪时空分布特征分析研究》文中研究表明雷电对人们的日常生活有着严重的威胁,对雷电进行时空规律分析,以及对雷暴进行更高精度的预报具有重要的现实意义。随着互联网的高速发展和气象监测水平的不断提高,产生了海量的雷电资料数据。在对雷电资料数据进行分析或预报等业务时,需要进行大量繁复的运算,而大规模运算存在耗时较长的问题,传统的单机方式已经越来越难以满足海量雷电资料的存储与处理。如何更好的对海量雷电资料数据进行挖掘研究成为气象部门工作的研究热点。大数据技术的出现,为海量雷电资料的处理提供了一个新的思路。课题针对内蒙古地闪时空分布特征分析研究,主要研究内容包括雷电时空规律分析和雷暴预报应用研究。雷电时空规律分析主要采用Spark算子和K-means算法对地闪定位资料分析;雷暴预报主要采用朴素贝叶斯算法,进一步对雷电时空规律分析,目的是对未来某一区域某一时段是否发生雷暴做出预测,主要工作如下。1.基于Hadoop+Spark平台设计了雷电高发区域划分算法SCK-means和雷电时间规律STime算法。针对K-means算法随机选取初始聚类中心和K值的问题,采用Canopy对K-means算法进行优化,并将优化的算法基于Spark平台进行并行化设计,形成了雷电高发区域划分算法SCK-means。利用Spark算子设计了雷电时间分布规律算法STime。最后,采用SSE、加速比和扩展比作为评价指标,实验结果表明本文设计的时空规律算法可以准确快速的挖掘雷电规律,为防雷减灾提供决策支持。2.基于Hadoop+Spark平台设计了SPNBC雷暴预报模型。针对传统朴素贝叶斯分类模型(NBC)的独立性假设问题,采用PCA算法优化贝叶斯分类器构建PNBC;并将优化后的算法基于Spark平台进行并行化设计,形成了雷暴预报模型SPNBC。最后,采用准确率、空报率、加速比和扩展比作为评价指标,与常用的BP神经网络和传统朴素贝叶斯雷暴预报方法进行实验对比,实验结果表明本文所提出的雷暴预报模型具有较佳的准确率和空报率,而且在处理海量数据时有较大的性能优势。论文通过对雷电时空规律分析、雷暴预报领域的研究,设计了基于Hadoop平台的雷电资料的存储方案、基于Spark平台的雷电时间与空间规律挖掘算法和雷暴预报模型,并通过实验验证了本文提出的算法和模型有效提高了雷电数据挖掘的效率和雷暴预报的可靠性。利用本文的研究成果可以构建快速的雷电数据分析平台,为气象相关人员快速分析雷电地闪过程的强弱和走向趋势提供良好的服务,为气象数据进一步的应用奠定了基础。
二、基于主成分分析提升朴素贝叶斯(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于主成分分析提升朴素贝叶斯(论文提纲范文)
(1)基于改进PCA的朴素贝叶斯分类算法(论文提纲范文)
0 引言 |
1 朴素贝叶斯算法 |
2 主成分分析法 |
3 改进PCA的朴素贝叶斯分类算法 |
3.1 相关系数矩阵的计算 |
3.1.1 用Pearson相关系数计算定量变量的相关性 |
3.1.2 用Kendall系数计算定量、定性变量间的相关性 |
3.2 NB-IPCA分类算法步骤 |
4 实证结果分析 |
5 结束语 |
(2)基于机器学习的阿克苏红富士品种鉴别方法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 高光谱成像技术 |
1.3 机器学习 |
1.4 基于机器学习算法与高光谱技术结合的作物分类研究现状 |
1.5 模型融合及研究现状 |
1.6 研究方法及技术路线 |
1.6.1 研究方法 |
1.6.2 技术路线 |
第二章 实验设备及方法介绍 |
2.1 实验设备 |
2.1.1 高光谱成像系统结构 |
2.1.2 采集理化值实验器械 |
2.2 提取光谱数据 |
2.2.1 光谱图像校正 |
2.2.2 选择感兴趣区域 |
2.3 光谱数据预处理方法 |
2.3.1 一阶导数 |
2.3.2 标准正态变换 |
2.3.3 多元散射校正 |
2.3.4 归一化 |
2.4 数据降维方法 |
2.4.1 主成分分析法 |
2.4.2 基于核函数的主成分分析 |
2.4.3 线性判别分析 |
2.4.4 局部线性嵌入 |
2.4.5 因子分析 |
2.4.6 多维尺度分析 |
2.5 机器学习分类方法介绍 |
2.5.1 k最近邻节点算法 |
2.5.2 支持向量机 |
2.5.3 朴素贝叶斯算法 |
2.5.4 二次判别分析 |
2.5.5 多层感知机 |
2.5.6 决策树 |
2.5.7 集成算法Bagging |
2.5.8 集成算法随机森林 |
2.5.9 集成算法GBDT |
2.6 模型融合 |
2.7 模型精确度评判标准 |
2.8 本章小结 |
第三章 苹果数据采集及实验步骤 |
3.1 实验样本 |
3.2 采集和处理苹果样本光谱数据 |
3.2.1 调节参数 |
3.2.2 系统检查 |
3.2.3 采集高光谱数据 |
3.2.4 黑白校正 |
3.2.5 选取ROI |
3.2.6 光谱数据预处理 |
3.3 采集苹果理化含量数据 |
3.4 构造分类模型 |
3.4.1 划分训练集与测试集 |
3.4.2 构造分类器 |
3.4.3 交叉验证 |
3.4.4 模型融合 |
第四章 数据建模结果 |
4.1 数据预处理 |
4.1.1 高光谱数据预处理 |
4.1.2 高光谱数据归一化处理 |
4.2 不同降维方法划分苹果品种类别 |
4.3 高光谱数据与机器学习算法结合实现苹果品种分类 |
4.4 苹果理化性质数据与机器学习算法结合实现苹果品种分类 |
4.5 模型融合实现苹果品种分类 |
4.5.1 模型融合原理 |
4.5.2 模型融合结果分析 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 研究结论与成果 |
5.2 展望 |
参考文献 |
致谢 |
作者简介 |
(3)朴素贝叶斯分类算法的改进研究(论文提纲范文)
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文主要工作和整体结构 |
2 贝叶斯方法相关理论 |
2.1 概率论基础 |
2.1.1 条件概率与乘法原理 |
2.1.2 全概率公式与贝叶斯定理 |
2.2 贝叶斯分类算法 |
2.3 朴素贝叶斯分类算法 |
2.3.1 条件独立性 |
2.3.2 朴素贝叶斯分类模型 |
2.3.3 朴素贝叶斯算法的优缺点 |
3 基于互信息的改进朴素贝叶斯分类算法 |
3.1 拉普拉斯平滑 |
3.2 基于互信息的改进朴素贝叶斯分类算法 |
3.2.1 互信息 |
3.2.2 INB-MI算法 |
3.3 实证分析 |
3.3.1 实验一 |
3.3.2 实验二 |
4 基于k近邻的朴素贝叶斯加权分类算法 |
4.1 k近邻算法 |
4.2 基于k近邻的朴素贝叶斯加权分类算法 |
4.2.1 在邻域内建立朴素贝叶斯模型 |
4.2.2 权重的计算 |
4.3 实证分析 |
5 基于改进PCA的朴素贝叶斯分类算法 |
5.1 主成分分析(PCA) |
5.2 改进PCA的朴素贝叶斯分类算法 |
5.2.1 相关系数矩阵的计算 |
5.2.2 NB-IPCA的算法流程 |
5.3 实证分析 |
6 基于属性约简的加权朴素贝叶斯分类算法 |
6.1 基于条件概率与SU的属性约简 |
6.1.1 基于条件概率剔除无关属性 |
6.1.2 基于SU剔除冗余属性 |
6.2 基于属性相关的加权 |
6.3 实证分析 |
7 总结与展望 |
参考文献 |
致谢 |
在校期间的科研成果 |
(5)基于MIC改进的PCA和CFS特征降维算法研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 本文主要工作 |
1.4 本文创新点 |
1.5 本文结构安排 |
第2章 相关概念和研究思路 |
2.1 特征降维 |
2.1.1 特征抽取 |
2.1.2 特征选择 |
2.2 常用变量间相关性度量方式 |
2.2.1 Pearson相关系数 |
2.2.2 Spearman秩相关系数 |
2.2.3 Kendall相关系数 |
2.2.4 互信息 |
2.2.5 最大信息系数 |
2.3 常用分类器 |
2.3.1 K近邻算法 |
2.3.2 朴素贝叶斯算法 |
2.3.4 支持向量机 |
2.3.5 决策树 |
2.4 研究思路框架 |
2.5 交叉验证 |
2.6 本章小结 |
第3章 改进的PCA算法:YJ-MICPCA算法 |
3.1 主成分分析 |
3.2 改进的主成分分析算法:YJ-MICPCA |
3.2.1 Yeo-Johnson变换 |
3.2.2 YJ-MICPCA算法 |
3.3 模拟研究 |
3.3.1 模拟设计 |
3.3.2 模拟结果 |
3.4 实验及结果分析 |
3.4.1 流程与数据集 |
3.4.2 分类器参数设置 |
3.4.3 实验结果与分析 |
3.4.4 不同方法的结果比较 |
3.5 结论 |
3.6 本章小结 |
第4章 改进的CFS算法:MICCFS算法 |
4.1 基于关联性的特征选择算法 |
4.2 改进的基于关联性特征选择算法:MICCFS |
4.2.1 MICCFS算法 |
4.2.2 时间复杂度比较 |
4.3 实验及结果分析 |
4.3.1 流程与实验数据集 |
4.3.2 分类器参数设置 |
4.3.3 评价比较准则 |
4.3.4 结果与讨论 |
4.3.4.1 回归结果 |
4.3.4.2 分类结果 |
4.3.5 不同算法的比较 |
4.4 结论 |
4.5 本章小结 |
第5章 总结与展望 |
5.1 本文研究工作的总结 |
5.2 展望 |
参考文献 |
致谢 |
攻读硕士期间发表的论文及比赛 |
论文 |
建模比赛 |
附录 |
(6)三维颅骨相似性度量和性别鉴定方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 研究目的 |
1.4 国内外研究现状 |
1.4.1 颅骨和面貌相似度评价的研究现状 |
1.4.2 颅骨性别鉴定研究现状 |
1.5 本文主要研究内容 |
1.6 论文的结构安排 |
第二章 三维颅骨数据获取与预处理 |
2.1 三维颅骨数据获取与预处理 |
2.2 三维颅骨数据配准 |
2.3 基于PCA的三维颅骨特征提取 |
第三章 基于SPCA的颅骨相似度评价方法 |
3.1 引言 |
3.2 SPCA原理与算法 |
3.3 基于SPCA的颅骨相似度评价方法 |
3.3.1 SPCA提取颅骨特征 |
3.3.2 相似性度量 |
3.4 实验结果和分析 |
3.4.1 基于SPCA颅骨相似度评价方法的可行性 |
3.4.2 SPCA稀疏主成分 |
3.4.3 SPCA和 PCA的均方误差值比较 |
3.4.4 SPCA和 PCA的归一化内积值比较 |
3.4.5 基于SPCA和 PCA的相似度评价的运行时间 |
3.4.6 基于SPCA和 PCA的相似度评价结果一致性 |
3.4.7 颅骨相似度评价 |
3.5 本章小结 |
第四章 基于Wasserstein距离的颅骨相似度评价方法 |
4.1 引言 |
4.2 Wasserstein距离 |
4.3 基于Wasserstein的颅骨相似度评价方法 |
4.3.1 颅骨之间的Wasserstein距离 |
4.3.2 基于Wasserstein距离的颅骨相似性度量 |
4.4 实验结果和分析 |
4.4.1 基于Wasserstein距离的颅骨相似度评价方法的可行性 |
4.4.2 基于PCA的不同相似性度量的比较 |
4.4.3 基于SPCA的不同相似性度量的比较 |
4.4.4 基于PCA的颅骨相似度评价 |
4.4.5 基于SPCA的颅骨相似度评价 |
4.5 本章小结 |
第五章 基于特征集合和朴素贝叶斯的颅骨性别鉴定方法 |
5.1 引言 |
5.2 颅骨特征集合提取方法 |
5.3 朴素贝叶斯原理与算法 |
5.4 基于特征集合和朴素贝叶斯的性别鉴定 |
5.5 实验结果分析 |
5.5.1 基于不同特征集合的分类实验 |
5.5.2 基于SPCA不同维度和局部特征组合的分类实验 |
5.5.3 基于不同分类方法的分类实验 |
5.5.4 基于不同样本的分类实验 |
5.6 本章小结 |
第六章 总结与展望 |
参考文献 |
攻读学位期间的研究成果 |
致谢 |
(7)基于最大信息系数的主成分分析贝叶斯分类算法(论文提纲范文)
0 引言 |
1 相关算法介绍 |
1.1 主成分分析 |
1.2 最大信息系数 |
1.3 贝叶斯分类算法 |
1.3.1 朴素贝叶斯分类算法 |
1.3.2 加权朴素贝叶斯分类模型 |
2 基于MIC-PCA的贝叶斯分类算法 |
2.1 算法模型 |
2.2 算法流程图 |
3 仿真实验与结果 |
3.1 实验设置 |
3.2 实验过程及结果分析 |
4 结 语 |
(8)基于改进朴素贝叶斯的新闻分类研究(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 论文主要内容和组织结构 |
1.3.1 论文主要内容 |
1.3.2 论文组织结构 |
1.3.3 论文创新点 |
1.4 本章小结 |
2 相关理论概述 |
2.1 机器学习概述 |
2.1.1 机器学习分类 |
2.1.2 机器学习回归 |
2.2 贝叶斯分类器 |
2.2.1 贝叶斯相关理论 |
2.2.2 朴素贝叶斯分类器 |
2.2.3 半朴素贝叶斯分类器 |
2.2.4 加权朴素贝叶斯分类器 |
2.3 分类模型 |
2.3.1 逻辑回归 |
2.3.2 K近邻 |
2.3.3 支持向量机 |
2.4 分类性能评估 |
2.5 本章小结 |
3 本文获取及文本表示 |
3.1 文本获取 |
3.2 中文分词 |
3.3 去停用词 |
3.4 特征提取 |
3.5 特征表示 |
3.5.1 One-hot模型 |
3.5.2 TF-IDF模型 |
3.5.3 Word2vec模型 |
3.6 本章小结 |
4 改进朴素贝叶斯的新闻分类 |
4.1 基于PCA的加权朴素贝叶斯分类器 |
4.1.1 主成分分析 |
4.1.2 PCA_WNBC模型 |
4.2 基于PCA的加权朴素贝叶斯新闻分类 |
4.2.1 新闻文本处理 |
4.2.2 PCA_WNBC模型的新闻分类 |
4.3 结果分析 |
4.3.1 新闻分类结果 |
4.3.2 模型评估 |
4.4 本章小结 |
5 总结与不足 |
5.1 总结 |
5.2 不足 |
参考文献 |
致谢 |
(9)基于机器学习构建2型糖尿病并发肾脏病中西医多模态特征融合预测模型(论文提纲范文)
中文摘要 |
Abstract |
引言 |
1 研究背景 |
1.1 2型糖尿病并发肾病的诊断难度高,构建预测模型具有较大辅助诊断价值 |
1.2 中医强调“上工治未病”,证候、舌象被越来越多用于糖尿病并发症预测 |
1.3 单模态单分类器准确度普遍偏低,多模态特征数据融合为2型糖尿病并发肾病预测模型构建的新趋势 |
1.4 标准化、客观化获取证候、舌图像数据,利于促进中西医多模态特征融合 |
1.5 特征自动提取和有监督学习建模方法,利于从多模态数据构建模型 |
2 研究思路 |
2.1 基于机器学习的2型糖尿病证候分类模型构建 |
2.2 基于深度学习的舌图像自动分割模型构建 |
2.3 中西医多模态特征融合与模型构建 |
实验研究 |
1 研究对象 |
1.1 病例来源 |
1.2 诊断标准 |
1.3 中医证候标准 |
1.4 纳入标准 |
1.5 排除标准 |
1.6 剔除标准 |
1.7 分组标准 |
1.8 样本量估算 |
2 研究方法 |
2.1 观察指标 |
2.2 质量控制 |
2.3 证候分类模型构建 |
2.4 舌图像自动分割模型构建 |
2.5 中西医多模态特征融合与模型构建 |
2.6 机器学习 |
3 结果 |
3.1 一般信息特征分布 |
3.2 症状分布 |
3.3 证型分布 |
3.4 证候分类模型构建 |
3.5 舌图像自动分割模型构建 |
3.6 中西医多模态特征融合与模型构建 |
讨论 |
1 性别、年龄、BMI分布特征 |
2 主要症状、证候分布 |
3 2型糖尿病证候标准化诊断 |
4 证型特征与舌图像特征对预测2型糖尿病并发肾病均具有较大意义 |
5 基于深度学习的舌图像分析有助于完善证型客观化诊断,舌象与疾病转归的直接关联有待深入研究 |
6 采用多模态特征融合构建的2型糖尿病并发肾病预测模型,可提高预测准确度 |
7 采用探索性因子分析特征降维与神经网络构建证候分类模型,优于其它算法组合 |
8 采用主成分分析特征降维与神经网络构建疾病预测模型,优于其它算法组合 |
结论 |
总结与展望 |
致谢 |
参考文献 |
附件1:综述 机器学习在糖尿病并发症预测模型中的应用 |
参考文献 |
附件2:伦理审核批件 |
附件3:糖尿病中医辨证细则 |
附件4:在读期间公开发表的学术论文、专着及科研成果 |
(10)基于大数据平台的内蒙古地闪时空分布特征分析研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 雷电时空规律挖掘研究现状 |
1.2.2 雷暴预报研究现状 |
1.2.3 气象大数据研究现状 |
1.3 研究内容 |
1.4 论文组织结构 |
1.5 本章小结 |
第二章 相关理论与技术 |
2.1 气象数据挖掘 |
2.1.1 数据挖掘简介 |
2.1.2 数据挖掘过程 |
2.2 相关数据挖掘算法 |
2.2.1 K-means算法 |
2.2.2 朴素贝叶斯算法 |
2.3 大数据技术Hadoop |
2.3.1 HDFS |
2.3.2 YARN |
2.4 大数据技术Spark |
2.4.1 Spark体系架构 |
2.4.2 Spark Core |
2.4.3 Spark程序执行框架 |
2.5 本章小结 |
第三章 基于Spark雷电时空规律分析 |
3.1 雷电高发区域划分算法SCK-means设计 |
3.1.1 Canopy算法 |
3.1.2 基于Canopy算法设计雷电高发区域CK-means算法 |
3.1.3 雷电高发区域划分算法SCK-means并行化设计 |
3.1.4 雷电高发区域划分算法SCK-means并行化实现 |
3.2 雷电时间规律算法STime设计 |
3.3 实验设计 |
3.3.1 数据预处理 |
3.3.2 实验平台搭建 |
3.4 实验结果分析 |
3.4.1 准确性实验 |
3.4.2 加速比实验 |
3.4.3 扩展性实验 |
3.4.4 雷电高发区域分析 |
3.4.5 时间分布特征分析 |
3.5 本章小结 |
第四章 基于Spark时空特征分析应用研究 |
4.1 基于主成分分析构建PNBC雷暴预报模型 |
4.1.1 主成分分析算法 |
4.1.2 基于主成分分析构建PNBC雷暴预报模型 |
4.2 SPNBC雷暴预报模型并行化设计 |
4.2.1 SPNBC雷暴预报模型并行化方案 |
4.2.2 基于Spark雷暴预报模型并行化实现 |
4.3 实验设计 |
4.3.1 数据预处理 |
4.3.2 实验环境 |
4.4 实验结果分析 |
4.4.1 准确性试验 |
4.4.2 算法加速比分析 |
4.4.3 算法扩展性分析 |
4.5 本章小结 |
结论 |
参考文献 |
致谢 |
攻读硕士学位期间的研究成果及参加的科研项目 |
四、基于主成分分析提升朴素贝叶斯(论文参考文献)
- [1]基于改进PCA的朴素贝叶斯分类算法[J]. 李思奇,吕王勇,邓柙,陈雯. 统计与决策, 2022
- [2]基于机器学习的阿克苏红富士品种鉴别方法研究[D]. 李疆. 塔里木大学, 2021
- [3]朴素贝叶斯分类算法的改进研究[D]. 李思奇. 四川师范大学, 2021(12)
- [4]基于主成分的稀疏贝叶斯信用分类研究[J]. 盛静文,于艳丽,江开忠. 软件导刊, 2020(08)
- [5]基于MIC改进的PCA和CFS特征降维算法研究[D]. 谢昆明. 湖北工业大学, 2020(11)
- [6]三维颅骨相似性度量和性别鉴定方法研究[D]. 郑鑫. 青岛大学, 2020(01)
- [7]基于最大信息系数的主成分分析贝叶斯分类算法[J]. 张莹,杜井涛,吴怀岗. 信息与电脑(理论版), 2020(11)
- [8]基于改进朴素贝叶斯的新闻分类研究[D]. 赖晓锋. 江西财经大学, 2020(11)
- [9]基于机器学习构建2型糖尿病并发肾脏病中西医多模态特征融合预测模型[D]. 夏庭伟. 成都中医药大学, 2020(01)
- [10]基于大数据平台的内蒙古地闪时空分布特征分析研究[D]. 周成栋. 内蒙古工业大学, 2020(02)