资源简介
通过python爬虫,对德语专业的招聘数据做了数据爬取,之后采用seaborn库作了可视化,包括了琴形图、柱状图、曲线图还有箱型图,此处给出爬虫python代码和可视化代码
代码片段和文件信息
# coding: utf-8
# In[196]:
import pandas as pd
import re
import numpy as np
a=pd.read_csv(‘F:\\xiaofang\\1.csv‘)
t=[]
for i in a[‘salary‘]:
t1=re.sub(‘K‘‘‘str(i))
t2=re.sub(‘k‘‘‘t1).split(‘-‘)
t.append(np.mean([int(tt) for tt in t2]))
a.loc[:‘salary_average‘]=t
#print(a.loc[:‘salary_average‘])
y=-1
for i in a[‘workYear‘]:
y+=1
pat=‘.*\-.*‘
p=re.compile(pat)
p2=re.compile(‘.*年[以上|以下].*‘)
p3=re.compile(‘.*[应届毕业生|不限].*‘)
if(p.match(i)):
t1=re.sub(‘年‘‘‘str(i))
t2=re.sub(‘y‘‘‘t1).split(‘-‘)
vb=np.mean([int(tt) for tt in t2])
a.loc[y‘workyear_average‘]=vb
elif(p2.match(i)):
t1=re.sub(‘年以上‘‘‘str(i))
t2=re.sub(‘年以下‘‘‘t1)
vb=np.mean([int(tt) for tt in t2])
a.loc[y‘workyear_average‘]=vb
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 285883 2018-09-21 16:23 keshi.ipynb
文件 2950 2018-09-21 16:19 lagouspider.py
文件 47487 2018-09-21 16:19 lagouspider.ipynb
文件 7749 2018-09-21 16:23 keshi.py
----------- --------- ---------- ----- ----
344069 4
相关资源
- ASTM E1381-95中文版
- 学生成绩查询系统(附源代码)
-
simuli
nk平台下的卷积码仿真 - 武汉大学数据结构考研及期末考试试
- 粒子群优化支持向量机
- IT售前如何写解决方案
- R语言机器学习-实用案例分析(代码
- S3C2440 Lcd代码(ARM9)
- 任意两点间最短路径
- sqldbx使用方法
- SQL注入源码
- user32.lib
- XilinxSpartan上实现31条MIPS指令流水线
- 图像匹配
- cordova集成RS232串口通讯
- Quartus_II_9.1破解器
- DDR SDRAM控制器调试心得
- 2019年中国海洋大学数据结构博士入学
- mfc42d.dll26795
- U盘制作完整电路图,dxp画的
- mm1但服务台排队模型
- adc (模数转换)显示到数码管,检测
- 杭州市geo.json
- MUSIC算法估计功率谱
-
entity fr
amework code first增删改查(包 - QPBO和DD算法对比的中文报告
- AM发射系统
- Spring MVC上传文件
- DGNSS数据传输格式RTCM3_2的介绍及解码
- [LabVIEW]DIY双按钮对话框
评论
共有 条评论