资源简介

Python聚类分析源代码,需要的下载之后,用自己的XML文件替换我的XML文件,并重新设置路径就可以使用

资源截图

代码片段和文件信息

#-*- coding:utf-8 -*-

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from pandas import DataframeSeries
from sklearn.linear_model import LinearRegression
from  sklearn.model_selection import  train_test_split#随机分割训练集和测试集
from  sklearn import  metrics#用来评估预测误差---计算真实值与预测值之间的预测误差

#读取文件
datafile = u‘F:\QQ文件\Annual%2Bsalary.xls‘#文件所在位置,u为防止路径中有中文名称,此处没有,可以省略
data = pd.read_excel(datafile)#datafile是excel文件,所以用read_excel如果是csv文件则用read_csv
examDf = Dataframe(data)
plt.rcParams[‘font.sans-serif‘]=[‘SimHei‘]
plt.rcParams[‘axes.unicode_minus‘] = False
#数据清洗比如第一列有可能是日期,这样的话我们就只需要从第二列开始的数据,
#这个情况下,把下面中括号中的0改为1就好,要哪些列取哪些列
new_examDf = examDf.ix[:0:]
#拆分训练集和测试集

X_trainX_testY_trainY_test = train_test_split(new_examDf.ix[::3]new_examDf.Returntrain_size=0.8)
#new_examDf.ix[::2]取了数据中的前两列为自变量,此处与单变量的不同
print(“自变量---源数据:“new

评论

共有 条评论