主成分分析法步骤与优缺点(主成分分析法教你降维打击)

访客3年前黑客工具1283

如何五步掌握主成分分析法:数据少少,信息多多!

本文的目的是为主成分分析(PCA)提供一个完整且简单的解释,特别是其运作方式,以增进大家对该分析法的理解并加以利用,而不必具有强大的数学背景。

PCA实际上是网上广泛提及的一种 *** ,很多文章都有涉及。但是,只有极少数文章能直接切入主题,并在不过多钻研技术细节的前提下解释PCA的工作原理以及“为什么”。这就是这篇文章的目的:以更简单的方式解释主成分分析法。

在开始解释之前,本文提供了PCA在每一步骤的运作原理的逻辑解释,简化了其背后的数学概念,如标准化,协方差,特征向量和特征值,而暂未关注如何运算的问题。

如何五步掌握主成分分析法:数据少少,信息多多!

什么是PCA?

PCA是一种常用于减少大数据集维数的降维 *** ,把大变量集转换为仍包含大变量集中大部分信息的较小变量集。

减少数据集的变量数量,自然是以牺牲精度为代价的,降维的好处是以略低的精度换取简便。因为较小的数据集更易于探索和可视化,并且使机器学习算法更容易和更快地分析数据,而不需处理无关变量。

总而言之,PCA的概念很简单——减少数据集的变量数量,同时保留尽可能多的信息。

如何五步掌握主成分分析法:数据少少,信息多多!

逐步解释

第1步:标准化

这一步的目的是把输入数据集变量的范围标准化,以使它们中的每一个均可大致成比例地分析。

更具体地说,在使用PCA之前必须标准化数据的原因是PCA对初始变量的方差非常敏感。也就是说,如果初始变量的范围之间存在较大差异,那么范围较大的变量将占据范围较小的变量(例如,范围介于0和100之间的变量将占据0到1之间的变量),这将导致主成分的偏差。因此,将数据转换为可比较的比例可避免此问题。

在数学上,这一步可以通过减去平均值,再除以每个变量值的标准偏差来完成。

如何五步掌握主成分分析法:数据少少,信息多多!

只要标准化完成后,所有变量都将转换为相同的范围[0,1]。

第2步:协方差矩阵计算

这一步的目的是:了解输入数据集的变量是如何相对于平均值变化的。或者换句话说,是为了查看它们之间是否存在任何关系。因为有时候,变量间高度相关是因为它们包含大量的信息。因此,为了识别这些相关性,我们进行协方差矩阵计算。

协方差矩阵是p×p对称矩阵(其中p是维数),其所有可能的初始变量与相关联的协方差作为条目。例如,对于具有3个变量x,y和z的三维数据集,协方差矩阵是以下的3×3矩阵:

如何五步掌握主成分分析法:数据少少,信息多多!

由于变量与其自身的协方差是其方差(Cov(a,a)= Var(a)),因此在主对角线(左上角到右下角)中,实际上有每个起始变量的方差。并且由于协方差是可交换的(Cov(a,b)= Cov(b,a)),协方差矩阵的条目相对于主对角线是对称的,这意味着上三角形部分和下三角形部分是相等的。

作为矩阵条目的协方差告诉我们变量之间的相关性是什么呢?

协方差的重要标志如下:

· 如果为正,则两个变量同时增加或减少(相关)

· 如果为负,则一个减少,另一个增加(不相关)

好了,现在我们知道协方差矩阵只不过是一个表,汇总了所有可能配对的变量间相关性。让我们继续下一步。

第3步:计算协方差矩阵的特征向量和特征值,用以识别主成分

特征向量和特征值都是线性代数概念,需要从协方差矩阵计算得出,以便确定数据的主成分。开始解释这些概念之前,让我们首先理解主成分的含义。

主成分是由初始变量的线性组合或混合构成的新变量。该组合中新变量(如主成分)之间彼此不相关,且大部分初始变量都被压缩进首个成分中。所以,10维数据会显示10个主成分,但是PCA试图在之一个成分中得到尽可能多的信息,然后在第二个成分中得到尽可能多的剩余信息,以此类推。

相关文章

三星反垄断调查最新进展:最高罚金或达80亿美元

三星反垄断调查取得重大进展。今年上半年,中国反垄断执法机构启动了对三星、镁光、海力士等公司的反垄断调查,主要是存储芯片价格异常上涨。日前,这一系列调查有了重要进展。 三星反垄断调查最新进展:最高罚金或...

广州招聘男私人伴游陪床-【施兰燕】

“广州招聘男私人伴游陪床-【施兰燕】” 上海,有着丰富的外籍洋妞,来自世界各国的美女,包括俄罗斯,日本,韩国,东欧,美洲,东南亚等。房山区私人伴游:6099米/2次,通州区兼职陪玩:3008/次了解...

B站:豪赌版权,意在直播

B站:豪赌版权,意在直播

编辑导读:作为一个面向年青人的产物,B站一直在不绝摸索年青人的爱好。最近,它与英雄同盟全球赛事告竣计谋相助,得到了中国大陆地域持续三年的全球赛事独家直播版权。本文作者将从四个方面,阐明背后的贸易逻辑,...

什么是 Lambda??该如何使用?

什么是 Lambda??该如何使用?

什么是 Lambda?(该如何使用?)     1.什么是Lambda?   我们知道,对于一个Java变量,我们可以赋给其一个“值”。       如果你想把“一块代码”赋给一...

草根篮球的发展趋势?草根篮球运动员的生存之战

草根篮球的发展趋势?草根篮球运动员的生存之战

“其实普通人也能做到”——这是众多草根篮球运动员最为信奉的一句话。 阿星开始玩扣篮,也正是因为它。 阿星,全名陈登星,被广大篮球爱好者誉为“民间扣篮王”。让他一跳成名的,是一幕亲吻篮筐的视频。阿星...

预定上海市高档伴游平台网址入口【皇甫红】

预定上海市高档伴游模特平台网址入口【皇甫红】 今日给大伙儿共享的內容是“预定上海市高档伴游模特平台网址入口【皇甫红】”,我是皇甫红,来源于阿拉尔市,2020年二十二岁,做为岗位:东城区高端模特,我喜爱...