爬取51job网站招聘信息

大小: 3KB

文件类型: .py

金币: 1

下载: 0 次

发布日期: 2021-05-21
语言: Python
标签: 爬虫 51job爬取 存储到txt mongodb

高速下载

资源简介

这是一个爬取51job招聘网站的代码，可以输入关键字爬取想要的各个职业的招聘信息，根据页码爬取制定页数的信息，可以选择存储到TXT，mongodb或者mysql中，代码简单易懂，可阅读性高

资源截图

小图大图

代码片段和文件信息

import urllib.request

import pymongo
import pymysql
from bs4 import BeautifulSoup as bs
import time

def get_request（keyword page url）:
    url = url.format（keyword page）
    headers = {
        ‘User-Agent‘: ‘Mozilla / 5.0（X11;Linuxx86_64） AppleWebKit / 537.36（KHTML likeGecko） ‘
                      ‘Chrome / 70.0.3538.67Safari / 537.36‘
    }
    request = urllib.request.Request（url=url headers=headers）
    return request

def parse_content（content fp）:
    soup = bs（content ‘html.parser‘）
    div_list = soup.select（‘.dw_table > .el‘）[1:]
    # print（div_list）
    # print（len（div_list））
    for odiv in div_list:
        # print（odiv）
        jobname = odiv.select（‘.t1 span > a‘）[0][‘title‘]
        # print（jobname）

        company = odiv.select（‘.t2 > a‘）[0][‘title‘]

        area = odiv.select（‘.t3‘）[0].string

        salary = odiv.select（‘.t4‘）[0].string

        publish_time = odiv.select（‘.t5‘）[0].string

        item = {
            ‘职位名称‘: jobname
            ‘公司名称‘: company
            ‘工作地点‘: area
            ‘薪资‘: salary
            ‘发布时间‘: publish_time
        }
        string = str（item）
        fp.write（string + ‘\n‘）
        # save_to_mysql（db item）
        # col.insert（item）

def save_to_mysql（db item）:
    cursor = db.cursor（）
    sql = ‘insert into job（jobname company area salary pu

上一篇：实战python利用线性回归来预测鲍鱼年龄
下一篇：prepro.py

共有条评论

爬取51job网站招聘信息

资源简介

资源截图

代码片段和文件信息

评论

相关资源