资源简介

这是一个爬取51job招聘网站的代码,可以输入关键字爬取想要的各个职业的招聘信息,根据页码爬取制定页数的信息,可以选择存储到TXT,mongodb或者mysql中,代码简单易懂,可阅读性高

资源截图

代码片段和文件信息

import urllib.request

import pymongo
import pymysql
from bs4 import BeautifulSoup as bs
import time

def get_request(keyword page url):
    url = url.format(keyword page)
    headers = {
        ‘User-Agent‘: ‘Mozilla / 5.0(X11;Linuxx86_64) AppleWebKit / 537.36(KHTML likeGecko) ‘
                      ‘Chrome / 70.0.3538.67Safari / 537.36‘
    }
    request = urllib.request.Request(url=url headers=headers)
    return request

def parse_content(content fp):
    soup = bs(content ‘html.parser‘)
    div_list = soup.select(‘.dw_table > .el‘)[1:]
    # print(div_list)
    # print(len(div_list))
    for odiv in div_list:
        # print(odiv)
        jobname = odiv.select(‘.t1 span > a‘)[0][‘title‘]
        # print(jobname)

        company = odiv.select(‘.t2 > a‘)[0][‘title‘]

        area = odiv.select(‘.t3‘)[0].string

        salary = odiv.select(‘.t4‘)[0].string

        publish_time = odiv.select(‘.t5‘)[0].string

        item = {
            ‘职位名称‘: jobname
            ‘公司名称‘: company
            ‘工作地点‘: area
            ‘薪资‘: salary
            ‘发布时间‘: publish_time
        }
        string = str(item)
        fp.write(string + ‘\n‘)
        # save_to_mysql(db item)
        # col.insert(item)

def save_to_mysql(db item):
    cursor = db.cursor()
    sql = ‘insert into job(jobname company area salary pu

评论

共有 条评论