当前位置首页 > 办公文档 > 工作计划
搜柄,搜必应! 快速导航 | 使用教程  [会员中心]

机器学习中的降维方法综述

文档格式:DOCX| 3 页|大小 13.79KB|积分 13|2023-09-09 发布|文档ID:231867066
第1页
下载文档到电脑,查找使用更方便 还剩页未读,继续阅读>>
1 / 3
此文档下载收益归作者所有 下载文档
  • 版权提示
  • 文本预览
  • 常见问题
  • 机器学习中的降维方法综述 ; 上海大学2023~2023学年春季学期研究生课程考试文献阅读报告 课程名称: 模式辨认与机器学习课程编号:07SBE9004论文题目:机器学习中的数据降维办法研究生姓名:廖 宇 学 号:14723542评语:成 绩: 任课教师:评阅日期:机器学习中的数据降维办法1.引言随着科技的进步,尤其是数据采集和存储技术的飞速开展,不同行业和领域的数据如航天遥感数据,生物数据,网络数据以及金融市场交易数据等大量涌现,意味着大数据时代的来临如何从复杂多样,变化迅速的大数据中有效地挖掘和提炼人类感兴趣的信息,对数据进行分析和建立模型,成为了一个热门话题机器学习是近20多年兴起的一种从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,其大量的应用都与大数据高度耦合,是一种十分适用于大数据环境下的算法从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种办法在机器学习算法中,降维算法是重要的一局部由于机器学习算法在处理数据或特征时, 过高的维数空间会包含有冗余信息以及噪音信息,在实际应用示例图像辨认中造成了误差,降低了准确率,因此需要通过降维算法来减少冗余信息所造成的误差,提高辨认的精度。

    另外,通过降维算法还可以寻找数据内部的本质结构特征,以及加速后续计算的速度,解决数据的稀疏问题等 2.数据降维办法2.1 主成分分析〔PCA〕 主成分分析〔PCA〕是最常用的线性降维办法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并冀望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保存住较多的原数据点的特性 通俗的理解,如果把所有的点都映射到一起,则几乎所有的信息,如点和点之间的距离关系会丧失掉,而如果映射前方差尽可能的大,则数据点那么会分散开来,以此来保存更多的信息可以证明,PCA是丧失原始数据信息最少的一种线性降维方式设n维向量w为目标子空间的一个坐标轴方向〔称为映射向量〕,最大化数据映射后的方差,有:其中m是数据实例的个数, Xi是数据实例i的向量叙述, X是所有数据实例的平均向量定义W为包含所有映射向量为列向量的矩阵,经过线性代数变换,可以得到如下优化目标函数:1mT2max(W(X《X))《i〔1〕 wm《1i《1mintr(WTAW),Ws.t. WTW《I〔2〕其中tr表示矩阵的迹,1mTA《(X《X)(X《X)《ii(3) m《1i《1A是数据协方差矩阵。

    容易得到最优的W是由数据协方差矩阵前k个最大的特征值对应的特征向量作为列向量构成的这些特征向量形成一组正交基并且最好地保存了数据中的信息 PCA的输出就是Y = W’ X,由X的原始维度降低到了k维PCA追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性但是这样投影以后对数据的辨别作用并不大,反而可能使得数据点揉杂在一起无法辨别这也是PCA存在的最大一个问题,这导致其在某些情况下的分类效果并不好2.2 线性判别分析〔LDA〕线性判别分析〔LDA〕是R.Fisher于1936年提出来的,也叫做Fisher’s LinearDiscriminant[1]LDA是一种有监督的线性降维算法与PCA类似,LDA也要寻找一组投影向量,并将高维数据投影到低维空间以实现数据的降维与PCA不同的是,LDA要使得原始数据投影到该低维空间后,不同类的数据尽可能地分开,同类的数据尽可能地紧凑,也就是在最小均方议一下选择能够最好分开各类数据的低维特征由于数据降维的过程含有数据的判别信息,LDA所得到的低维特征更有利于分类因此,LDA是目前在机器学习领域经典的一个办法。

    将LDA与PCA相比拟的话,两者的动机不同,因此对于相同的数据所寻找的投影向量也不尽相同,PCA在投影方向可以最大程度地保存原始数据信息,而LDA的投影方向更有利于辨别两类数据,〔参加LDA的计算过程〕 3.总结与展望1901年K.Pearson首次提出了主成分分析这个概念[i],1933年H.Hotelling 完善了其数学根底,所以PCA又称为Hotelling变换PCA的目的是将原始变量转换为一小局部反映事物主要性质的变量,也就是主成分从而将数据从高维空间投影到低维空间,并且保证投影后的低维数据能够在最小平方意义下最优地描述原有高维数据PCA的各个主成分可通过求解基于数据协方差矩阵的特征向量得到PCA的这些特点使得它成为分析多元数据的重要工具之一,并且在模式辨认中得到广泛应用示例,基于PCA的特征脸办法〔Eigenfaces〕办法已被证明在人脸辨认中是相当成功的众多研究者在此根底上进一步提出了许多扩展和变化办法,其中有代表性的有与和办法相结合得到的核主成分分析〔Kernel Principal Component Analysis, KPCA〕、结合稀疏学习的稀疏主成分分析〔Sparse Principal Component Analysis, SPCA〕、概率主成分分析〔Probabilistic Principal Component Analysis, PPCA〕、可有效处理二维图像的二维主成分分析〔2-Dimensional Principal Component Analysis, 2DPCA〕、部分主成分分析〔Local Principal Component Analysis, LPCA〕等。

    [] Turk M, Pentland A. Eigenfaces for recognition[J]. Journal of cognitive neuroscience, 1991, 3(1): 71-86. [] Sch《lkopf B, Smola A, Müller K R. Nonlinear component analysis as a kernel eigenvalue problem[J]. Neural computation, 1998, 10(5): 1299-1319. [] Zou H, Hastie T, Tibshirani R. Sparse principal component analysis[J]. Journal of computational and graphical statistics, 2023, 15(2): 265-286. [i][1] Fisher R A. The use of multiple measurements in taxonomic problems[J]. Annals of eugenics, 1936, 7(2): 179-188. 。

    点击阅读更多内容
    卖家[上传人]:众众一元开心夺宝
    资质:实名认证