• 大小: 534KB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-05-28
  • 语言: Python
  • 标签: Python爬虫  51Job  

资源简介

使用Python Scrapy框架爬取51Job职位信息,包括职位所在地、所属公司、薪酬、招聘需求、福利待遇等等。

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class Job51HlinkItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 职位编号
    job_id = scrapy.Field()
    # 职位名称
    job_title = scrapy.Field()
    # 公司名称
    job_company = scrapy.Field()
    # 公司省份
    job_province = scrapy.Field()
    # 公司地址
    job_address = scrapy.Field()
    # 工作薪资
    job_salary = scrapy.Field()
    # 职位详情链接
    job_href = scrapy.Field()
    # 职位发布时间
    job_issueTime = scrapy.Field()
class DetailsItem(scrapy.Item):
    “““
    将详情页提取到的数据另外保存到一个文件中
    “““
    # 职位编号
    job_id = scrapy.Field()
    # 职位详情
    job_detail = scrapy.Field()
    # 职位的工作经验要求
    #job_experience = scrapy.Field()
    # 职位的学历要求
    #job_education = scrapy.Field()
    # 招聘数量
    #job_num = scrapy.Field()
    # 公司福利
    company_benefit = scrapy.Field()
    # 职位信息
    work_info = scrapy.Field()
    # 职能类别
    job_type = scrapy.Field()
    # 工作薪资
    job_salary = scrapy.Field()
    # 关键字
    job_keywords = scrapy.Field()
    # 联系方式
    contact = scrapy.Field()
    # 公司信息
    company_info = scrapy.Field()
    # 公司名称
    company_name = scrapy.Field()
    # 公司类型
    company_type = scrapy.Field()
    # 公司规模
    company_size = scrapy.Field()
    # 公司行业
    company_trade = scrapy.Field()

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2019-04-22 12:27  job51_hlink\
     目录           0  2019-04-22 12:26  job51_hlink\.idea\
     文件         218  2019-04-22 12:26  job51_hlink\.idea\encodings.xml
     文件         453  2019-04-22 12:26  job51_hlink\.idea\job51_hlink.iml
     文件         298  2019-04-22 12:26  job51_hlink\.idea\misc.xml
     文件         274  2019-04-22 12:26  job51_hlink\.idea\modules.xml
     文件       11324  2019-04-22 12:26  job51_hlink\.idea\workspace.xml
     文件      493606  2019-04-22 12:26  job51_hlink\job51.json
     文件     1330630  2019-04-22 12:26  job51_hlink\job51_detail.json
     目录           0  2019-04-22 12:26  job51_hlink\job51_hlink\
     文件           0  2019-04-22 12:26  job51_hlink\job51_hlink\__init__.py
     目录           0  2019-04-22 12:26  job51_hlink\job51_hlink\__pycache__\
     文件         151  2019-04-22 12:26  job51_hlink\job51_hlink\__pycache__\__init__.cpython-37.pyc
     文件        1038  2019-04-22 12:26  job51_hlink\job51_hlink\__pycache__\items.cpython-37.pyc
     文件        1376  2019-04-22 12:26  job51_hlink\job51_hlink\__pycache__\pipelines.cpython-37.pyc
     文件         486  2019-04-22 12:26  job51_hlink\job51_hlink\__pycache__\settings.cpython-37.pyc
     文件        1665  2019-04-22 12:26  job51_hlink\job51_hlink\items.py
     文件        3605  2019-04-22 12:26  job51_hlink\job51_hlink\middlewares.py
     文件        1269  2019-04-22 12:26  job51_hlink\job51_hlink\pipelines.py
     文件        3226  2019-04-22 12:26  job51_hlink\job51_hlink\settings.py
     目录           0  2019-04-22 12:26  job51_hlink\job51_hlink\spiders\
     文件         161  2019-04-22 12:26  job51_hlink\job51_hlink\spiders\__init__.py
     目录           0  2019-04-22 12:26  job51_hlink\job51_hlink\spiders\__pycache__\
     文件         159  2019-04-22 12:26  job51_hlink\job51_hlink\spiders\__pycache__\__init__.cpython-37.pyc
     文件        4625  2019-04-22 12:26  job51_hlink\job51_hlink\spiders\__pycache__\job51Hlink.cpython-37.pyc
     文件        6144  2019-04-22 12:26  job51_hlink\job51_hlink\spiders\job51Hlink.py
     文件      988307  2019-04-22 12:26  job51_hlink\myLog.log
     文件         265  2019-04-22 12:26  job51_hlink\scrapy.cfg
     文件         994  2019-04-22 12:26  job51_hlink\shell命令.txt

评论

共有 条评论