资源简介
经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo。这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程。
工具和环境
语言:python 2.7
IDE: Pycharm
浏览器:Chrome
爬虫框架:Scrapy 1.2.1
https://zhuanlan.zhihu.com/p/24769534?refer=woodenrobot
代码片段和文件信息
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class DoubanMovieItem(scrapy.Item):
# 排名
ranking = scrapy.Field()
# 电影名称
movie_name = scrapy.Field()
# 评分
score = scrapy.Field()
# 评论人数
score_num = scrapy.Field()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2017-07-15 16:55 scrapy-tutorial-master\
文件 17 2017-07-15 16:55 scrapy-tutorial-master\.gitignore
文件 268 2017-07-15 16:55 scrapy-tutorial-master\scrapy.cfg
目录 0 2017-07-15 16:55 scrapy-tutorial-master\scrapyspider\
文件 0 2017-07-15 16:55 scrapy-tutorial-master\scrapyspider\__init__.py
文件 386 2017-07-15 16:55 scrapy-tutorial-master\scrapyspider\items.py
文件 292 2017-07-15 16:55 scrapy-tutorial-master\scrapyspider\pipelines.py
文件 205 2017-07-15 16:55 scrapy-tutorial-master\scrapyspider\run.py
文件 3177 2017-07-15 16:55 scrapy-tutorial-master\scrapyspider\settings.py
目录 0 2017-07-15 16:55 scrapy-tutorial-master\scrapyspider\spiders\
文件 161 2017-07-15 16:55 scrapy-tutorial-master\scrapyspider\spiders\__init__.py
文件 387 2017-07-15 16:55 scrapy-tutorial-master\scrapyspider\spiders\blog_spider.py
文件 1326 2017-07-15 16:55 scrapy-tutorial-master\scrapyspider\spiders\douban_ajax_spider.py
文件 1446 2017-07-15 16:55 scrapy-tutorial-master\scrapyspider\spiders\douban_spider.py
- 上一篇:大学排名爬虫
- 下一篇:xgboost安装包
相关资源
- get_wuyou.zip
- 千锋python爬虫教程之scrapy框架.txt
- scrapy简单案例--爬取慕课网所有课程信
- Python-Scrapy 入门级爬虫项目实战
- scrapy 封装的爬取社保信息
- Python scrapy爬取豆瓣电影top250
- python爬虫Scrapy(一)-我爬了boss数据
- python抓取天气并分析
- 基于scrapy框架的豆瓣爬虫
- 分布式scrapy-redis爬虫!糗事百科
- python爬虫-scrapy框架
- scrapy抓取安居客数据
- Scrapy框架简单应用:爬取免费的的西刺
- python微博爬虫(scrapy)
- scrapy爬取图片含说明文档
- 财经数据爬虫基于scrapy
- scrapy爬虫爬取应用宝上的内容并写入
- scrapy框架抽取新华网
评论
共有 条评论