• 大小: 1.28MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-10-14
  • 语言: Python
  • 标签: scrapy爬虫  crawl  

资源简介

基于python3通过srapy的crawl模板实现整站新闻爬取voa双语新闻Neri并保存到mysql

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class BlogscrapyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    date_time = scrapy.Field()
    detail_url = scrapy.Field()
    source_from = scrapy.Field()
    summary = scrapy.Field()
    content = scrapy.Field()
    read_count = scrapy.Field()
    logo_url = scrapy.Field()

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-10-21 22:17  voanews\
     目录           0  2018-10-21 21:42  voanews\.vscode\
     文件          70  2018-10-21 22:18  voanews\.vscode\settings.json
     文件     5942982  2018-10-21 22:20  voanews\blog.json
     文件         257  2018-10-21 22:20  voanews\scrapy.cfg
     目录           0  2018-10-21 21:52  voanews\voanews\
     目录           0  2018-10-14 21:46  voanews\voanews\db\
     文件        1988  2018-10-21 22:15  voanews\voanews\db\dbhelper.py
     文件         161  2018-10-14 21:46  voanews\voanews\db\__init__.py
     目录           0  2018-10-21 22:15  voanews\voanews\db\__pycache__\
     文件        1952  2018-10-21 22:15  voanews\voanews\db\__pycache__\dbhelper.cpython-36.pyc
     文件         126  2018-10-14 22:03  voanews\voanews\db\__pycache__\__init__.cpython-36.pyc
     文件         524  2018-10-21 22:04  voanews\voanews\items.py
     文件        3605  2018-10-14 17:20  voanews\voanews\middlewares.py
     文件         687  2018-10-21 22:19  voanews\voanews\pipelines.py
     文件        3304  2018-10-21 22:20  voanews\voanews\settings.py
     目录           0  2018-10-21 21:56  voanews\voanews\spiders\
     文件         901  2018-10-21 22:19  voanews\voanews\spiders\news.py
     文件         161  2018-07-12 05:14  voanews\voanews\spiders\__init__.py
     目录           0  2018-10-21 22:20  voanews\voanews\spiders\__pycache__\
     文件        1045  2018-10-14 19:10  voanews\voanews\spiders\__pycache__\blog.cpython-36.pyc
     文件        1136  2018-10-21 22:20  voanews\voanews\spiders\__pycache__\news.cpython-36.pyc
     文件         131  2018-10-14 17:21  voanews\voanews\spiders\__pycache__\__init__.cpython-36.pyc
     文件           0  2018-07-12 05:14  voanews\voanews\__init__.py
     目录           0  2018-10-21 22:20  voanews\voanews\__pycache__\
     文件         498  2018-10-21 22:08  voanews\voanews\__pycache__\items.cpython-36.pyc
     文件        1042  2018-10-21 22:20  voanews\voanews\__pycache__\pipelines.cpython-36.pyc
     文件         438  2018-10-21 22:20  voanews\voanews\__pycache__\settings.cpython-36.pyc
     文件         123  2018-10-14 17:21  voanews\voanews\__pycache__\__init__.cpython-36.pyc

评论

共有 条评论