资源简介
python网络爬虫,爬取Boss直聘网招聘信息,可输入城市和职位进行爬取,默认学历为本科可以修改
代码片段和文件信息
# -*- coding: utf-8 -*-
“““
Created on Tue Jul 23 17:12:30 2019
@author: Administrator
“““
import urllib.request
import urllib.parse
import re
import csv
import time
#https://www.zhipin.com/c101130100/d_203/?query=Java&page=1&ka=page-1
class ZhaopinSpyder:
def __init__(self):
self.baseurl = “https://www.zhipin.com/c“
self.headers = {“user-Agent“:“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML like Gecko) Chrome/14.0.835.163 Safari/535.1“}
self.name = ““
self.city = ““
#self.page = 0
# 获取页面
def getPage(selfurl):
req = urllib.request.Request(urlheaders=self.headers)
res = urllib.request.urlopen(req)
html = res.read().decode(“utf-8“)
#print(html)
self.parsePage(html)
# 解析页面
def parsePage(self html):
p = re.compile(r‘.*?tle“>(.*?).*?(.*?).*?(.*?).*?.*?target=“_blank“>(.*?)
.*?‘re.S)
rList = p.findall(html)
if bool(rList):
#print(rList)
self.writePage(rList)
# 保存数据
def writePage(selfList):
f = open(self.city+“_“+self.name+“.csv““a“newline=““encoding=“utf-8“)
write = csv.
相关资源
- Python WSQ行情订阅演示案例.rar
- generate_train_val_test_txt.py
- 在python环境下成功实现视频分帧,并
- 传染病SEIR传播动力模型python代码
- 船舶AIS数据轨迹可视化python代码.py
- python背单词小程序
- 深度信念网络分类算法python程序.doc
- Python爬取论文标题、作者、摘要等信
- python爬虫的随机请求头+随机代理
- python实现种子填充算法.zip
- python实现有序边表算法.zip
- 纯python实现mnist手写体识别.zip
- Python爬取豆瓣图书信息并保存到本地
- 爬取汽车之家指定配置信息
- 汽车之家图片爬取
- python实现有向图单源最短路径迪杰斯
- 文件夹下所有图片的读取以及显示p
- python 实现图片像素大小设置
- 经典遗传算法(SGA)解01背包问题的
- 第六章Python函数习题及答案--中文
- SVM鸢尾花分类Python实现.rar
- arima预测python程序
- 必应壁纸天天换python小程序.zip
- python小项目--外星人入侵
- Flask项目实战-超市商品管理平台
- pythonreader.rar
- Python Scrapy爬虫爬取微博和微信公众号
- python写盛金法求一元三次方方程解
- 老男孩Python2018基础高级进阶(28周)
- python http服务器搭建
评论
共有 条评论