资源简介
数据降维
在实际生产生活中,我们所获得的数据集在特征上往往具有很高的维度,对高维度的数据进行处理时消耗的时间很大,并且过多的特征变量也会妨碍查找规律的建立。如何在最大程度上保留数据集的信息量的前提下进行数据维度的降低,是我们需要解决的问题。
对数据进行降维有以下优点:
(1)使得数据集更易使用
(2)降低很多算法的计算开销
(3)去除噪声
(4)使得结果易懂
降维技术作为数据预处理的一部分,即可使用在监督学习中也能够使用在非监督学习中。而降维技术主要有以下几种:主成分分析(Principal Component Analysis,PCA)、因子分析(Factor A
代码片段和文件信息
from PIL import Image
from numpy import *
def pca(X):
“““ 主成分分析:
输入:矩阵 X,其中该矩阵中存储训练数据,每一行为一条训练数据
返回:投影矩阵(按照维度的重要性排序)、方差和均值 “““
# 获取维数
num_datadim = X.shape
print(‘num_data:‘num_data‘dim:‘dim)
# 数据中心化
mean_X = X.mean(axis=0)
X = X - mean_X
if dim>num_data:
# PCA- 使用紧致技巧
M = dot(XX.T) # 协方差矩阵
eEV = linalg.eigh(M) # 特征值和特征向量
print(‘ev:‘EV.shape[1])
print(EV)
for i in range(len(e)):
if e[i]<0:
e[i]=-e[i]
tmp = dot(X.TEV).T # 这就是紧致技巧
V =tmp[::-1] # 由于最后的特征向量是我们所需要的,所以需要将其逆转
print(V.shape[0])
#print(V[:3])
S =sqrt(e)[::-1] # 由于特征值是按照递增顺序排列的,所以需要将其逆转
print(S)
for i in range(V.shape[1]):
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 208625 2019-10-24 11:33 pca\pca算法.docx
文件 734 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\10_t.jpg
文件 729 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\11_t.jpg
文件 718 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\12_t.jpg
文件 696 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\13_t.jpg
文件 701 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\14_t.jpg
文件 699 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\15_t.jpg
文件 717 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\16_t.jpg
文件 701 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\17_t.jpg
文件 661 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\18_t.jpg
文件 678 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\19_t.jpg
文件 719 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\1_t.jpg
文件 650 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\20_t.jpg
文件 656 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\21_t.jpg
文件 610 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\22_t.jpg
文件 736 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\23_t.jpg
文件 734 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\24_t.jpg
文件 669 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\25_t.jpg
文件 682 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\26_t.jpg
文件 664 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\27_t.jpg
文件 677 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\28_t.jpg
文件 588 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\29_t.jpg
文件 721 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\2_t.jpg
文件 681 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\30_t.jpg
文件 703 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\31_t.jpg
文件 684 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\32_t.jpg
文件 708 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\33_t.jpg
文件 730 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\34_t.jpg
文件 744 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\35_t.jpg
文件 648 2009-05-05 13:35 pca\PCA算法实现及资源\athumb\36_t.jpg
............此处省略32个文件信息
评论
共有 条评论