资源简介
这是一个爬取51job招聘网站的代码,可以输入关键字爬取想要的各个职业的招聘信息,根据页码爬取制定页数的信息,可以选择存储到TXT,mongodb或者mysql中,代码简单易懂,可阅读性高
代码片段和文件信息
import urllib.request
import pymongo
import pymysql
from bs4 import BeautifulSoup as bs
import time
def get_request(keyword page url):
url = url.format(keyword page)
headers = {
‘User-Agent‘: ‘Mozilla / 5.0(X11;Linuxx86_64) AppleWebKit / 537.36(KHTML likeGecko) ‘
‘Chrome / 70.0.3538.67Safari / 537.36‘
}
request = urllib.request.Request(url=url headers=headers)
return request
def parse_content(content fp):
soup = bs(content ‘html.parser‘)
div_list = soup.select(‘.dw_table > .el‘)[1:]
# print(div_list)
# print(len(div_list))
for odiv in div_list:
# print(odiv)
jobname = odiv.select(‘.t1 span > a‘)[0][‘title‘]
# print(jobname)
company = odiv.select(‘.t2 > a‘)[0][‘title‘]
area = odiv.select(‘.t3‘)[0].string
salary = odiv.select(‘.t4‘)[0].string
publish_time = odiv.select(‘.t5‘)[0].string
item = {
‘职位名称‘: jobname
‘公司名称‘: company
‘工作地点‘: area
‘薪资‘: salary
‘发布时间‘: publish_time
}
string = str(item)
fp.write(string + ‘\n‘)
# save_to_mysql(db item)
# col.insert(item)
def save_to_mysql(db item):
cursor = db.cursor()
sql = ‘insert into job(jobname company area salary pu
- 上一篇:实战python利用线性回归来预测鲍鱼年龄
- 下一篇:prepro.py
相关资源
- python爬取100个百度百科页面信息
- python爬虫之豆瓣电影使用requests、lx
- 爬虫从入门到精通内含如何应对反爬
- 最好中国大学近几年排名及python爬虫
- python爬虫爬取企业详细信息
- 58同城爬虫程序
- 链家房价爬虫
- requests 中文文档
- 抓取CSDN博客文章的简单爬虫python源码
- python新浪微博爬虫,爬取微博和用户
- python实现网络爬虫 爬取北上广深的天
- python3抓取头条新闻源码
- 彼岸网4K高清图片爬虫源代码
- 音乐爬虫
- python图片爬取.rar
- Python scrapy爬取豆瓣电影top250
- 新浪微博爬虫代码+结果
- Python-微信公众号历史文章爬取api
- python 爬虫一键爬取 淘宝天猫宝贝页面
- python爬虫淘宝图片
- python爬虫爬取企查查公司工商信息
- 一加云服务照片批量导出 Python爬虫
- Python爬虫抓取Ebay页面
- Python 搜狗词库的批量
- python爬取小说源码,仅供学习使用
- GrabClass.py爬取武汉理工大学课表
- py新浪微博爬虫通过修改最后的uid值即
- 高效爬取微博数据python3实现
- python3网络爬虫与开发实战崔庆才PDF百
- 基于Python专业网络爬虫的设计与实现
评论
共有 条评论