资源简介
智联招聘爬取工作岗位薪资分布以及岗位要求(python),直接运行可用,需要自己下载依赖的包,比如scrapy,pandas,matplotlib等...可用根据百度和错误提示一步一步安装依赖包
代码片段和文件信息
#-*- coding: utf-8 -*-
import re
import csv
import jieba
import numpy
import requests
from tqdm import tqdm
import pandas as pd
from scipy.misc import imread
from wordcloud import WordCloud ImageColorGenerator
from collections import Counter
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt
from requests.exceptions import RequestException
def get_one_page(city keyword region page):
‘‘‘
获取网页html内容并返回
‘‘‘
paras = {
‘jl‘: city # 搜索城市
‘kw‘: keyword # 搜索关键词
‘isadv‘: 0 # 是否打开更详细搜索选项
‘isfilter‘: 1 # 是否对结果过滤
‘sg‘: ‘d5259c62115f44e3bbb380dc88411919‘
‘p‘: page # 页数
‘re‘: region # region的缩写,地区,2005代表海淀
}
headers = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/63.0.3239.132 Safari/537.36‘
‘Host‘: ‘sou.zhaopin.com‘
‘Referer‘: ‘https://www.zhaopin.com/‘
‘Accept‘: ‘text/htmlapplication/xhtml+xmlapplication/xml;q=0.9image/webpimage/apng*/*;q=0.8‘
‘Accept-Encoding‘: ‘gzip deflate br‘
‘Accept-Language‘: ‘zh-CNzh;q=0.9‘
}
url = ‘https://sou.zhaopin.com/jobs/searchresult.ashx?‘
try:
# 获取网页内容,返回html数据
response = requests.get(url params=paras headers=headers)
print(response.url)
# 通过状态码判断是否获取成功
if response.status_code == 200:
return response.text
return None
except RequestException as e:
return None
def parse_one_page(html):
‘‘‘
解析HTML代码,提取有用信息并返回
‘‘‘
# 正则表达式进行解析
pattern = re.compile(‘(.*?).*?‘ # 匹配职位详情地址和职位名称
‘ .*? target=“_blank“>(.*?).*?‘ # 匹配公司名称
‘ (.*?) ‘ re.S) # 匹配月薪
# 匹配所有符合条件的内容
items = re.findall(pattern html)
for item in items:
job_name = item[1]
job_name = job_name.replace(‘‘ ‘‘)
job_name = job_name.replace(‘‘ ‘‘)
salary_avarage = 0
temp = item[3]
if temp != ‘面议‘:
idx = temp.find(‘-‘)
# 求平均工资
salary_avarage = (int(temp[0:idx]) + int(temp[idx+1:]))//2
# html = get_detail_page(job_url)
# print(html)
yield {
‘job‘: job_name
‘job_url‘: item[0]
‘company‘: item[2]
‘salary‘: salary_avarage
}
def get_detail_page(url):
‘‘‘
获取职位详情页html内容并返回
‘‘‘
headers = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/63.0.3239.132 Safari/537.36‘
‘Host‘: ‘jobs.zhaopin.com‘
‘Accept‘: ‘text/htmlapplication/xhtml+xmlapplication/xml;q=0.9image/webpimage/apng*/*;q=
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 134783 2018-07-10 15:19 智联招聘爬取工作岗位薪资分布以及岗位要求(python)\2.png
文件 93404 2018-07-10 17:10 智联招聘爬取工作岗位薪资分布以及岗位要求(python)\output.png
文件 8295 2018-07-10 15:40 智联招聘爬取工作岗位薪资分布以及岗位要求(python)\stopwords.txt
文件 10665 2018-07-10 17:38 智联招聘爬取工作岗位薪资分布以及岗位要求(python)\zhilian.py
文件 72208 2018-07-10 17:08 智联招聘爬取工作岗位薪资分布以及岗位要求(python)\zl_上海_java工程师.csv
文件 289072 2018-07-10 17:08 智联招聘爬取工作岗位薪资分布以及岗位要求(python)\zl_上海_java工程师.txt
目录 0 2018-07-10 19:47 智联招聘爬取工作岗位薪资分布以及岗位要求(python)
----------- --------- ---------- ----- ----
608427 7
- 上一篇:python 接口自动化测试脚本demo
- 下一篇:WSN节点部署完整代码
相关资源
- python实现SGBM图像匹配算法
- python实现灰度直方图均衡化
- scrapy_qunar_one
- Python学习全系列教程永久可用
- python简明教程.chm
- 抽奖大转盘python的图形化界面
- 双边滤波器实验报告及代码python
- python +MYSQL+HTML实现21蛋糕网上商城
- Python-直播答题助手自动检测出题搜索
- OpenCV入门教程+OpenCV官方教程中文版
- Python 串口工具源码+.exe文件
- Python开发的全栈股票系统.zip
- Python操作Excel表格并将其中部分数据写
- python书籍 PDF
- 利用python绘制散点图
- python+labview+No1.vi
- 老男孩python项目实战
- python源码制作whl文件.rar
- python3.5可用的scipy
- PYTHON3 经典50案例.pptx
- 计算机科学导论-python.pdf
- python模拟鼠标点击屏幕
- windows鼠标自动点击py脚本
- 鱼c小甲鱼零基础学python全套课后题和
- Python 练习题100道
- Practical Programming 2nd Edition
- wxPython Application Development Cookbook
- python 3.6
- Python 3.5.2 中文文档 互联网唯一CHM版本
- python3.5.2.chm官方文档
评论
共有 条评论