资源简介
获取58同城租房信息,同时破解字体加密,使用python3.7开发
代码片段和文件信息
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import linkExtractor
from scrapy.spiders import CrawlSpider Rule
from rentHouse.items import RenthouseItem
import re
from fontTools.ttLib import TTFont
import base64
from io import BytesIO
class ZhuFangSpider(CrawlSpider):
name = ‘zhu_fang‘
allowed_domains = [‘wh.58.com‘]
start_urls = [‘https://wh.58.com/zufang/‘]
rules = (
Rule(linkExtractor(allow=r‘zufang/pn\d+/‘) follow=True)
Rule(linkExtractor(allow=r‘zufang/\d+x\.shtml‘) callback=‘parse_item‘)
)
def parse_item(self response):
result = re.findall(r“base64\(.*?)‘\)“ response.body_as_unicode() re.S)
# 租金
rent_money = self.get_rent_money(responseresult)
# 押金
ya_jin = self.get_ya_jin(response)
# 租赁方式
rent_way = self.get_rent_way(response)
# 房屋类型
house_style = self.get_house_style(responseresult)
# 房屋朝向
house_toward = self.get_house_toward(response)
# 房屋楼层
house_foor = self.get_house_foor(responseresult)
# 小区
xiao_qu = self.get_xiao_qu(response)
# 区域
house_area = self.get_house_area(response)
# 详细区域
detail_area = self.get_detail_area(response)
# 链接
url = response.url
item = RenthouseItem(rent_money = rent_moneyya_jin = ya_jinrent_way = rent_wayhouse_style = house_style house_toward = house_toward
house_foor = house_foorxiao_qu = xiao_quhouse_area = house_areadetail_area = detail_areaurl = url)
yield item
def get_rent_money(selfresponseresult):
rent_money = response.xpath(‘//b[@class=“f36 strongbox“]/text()‘).extract()
if len(rent_money) == 0:
return None
else:
if len(result) == 0:
return rent_money[0]
else:
ziti = rent_money[0]
code_str = result[0]
rent_money = self.jiema(ziti code_str)
return rent_money
def get_ya_jin(selfresponse):
ya_jin = response.xpath(‘//span[@class=“c_333“]/text()‘).extract()
if len(ya_jin) != 0:
return ya_jin[0]
else:
return None
def get_rent_way(selfresponse):
rent_way = response.xpath(‘//ul[@class=“f14“]/li[1]/span[2]/text()‘).extract()
if len(rent_way) != 0:
return rent_way[0]
else:
return None
def get_house_style(selfresponseresult):
house_style = response.xpath(‘//ul[@class=“f14“]/li[2]/span[2]/text()‘).extract()
if len(house_style) == 0:
return None
else:
if len(result) == 0:
return house_style[0].replace(“\xa0“““).replace(“ “““)
else:
code_str = result[0]
相关资源
- 千锋python爬虫教程之scrapy框架.txt
- 天猫评论爬虫
- 图虫网爬虫python实现
- 爬虫源码:分页爬取,mysql数据库连接
- 利用Python爬虫抓取网页上的图片含异
- python爬虫抓取百度贴吧中邮箱地址
- Python爬虫库requests获取响应内容、响应
- Python爬虫爬取51Job职位数据
- 利用python爬虫爬取王者荣耀数据.py
- Python爬虫爬取豆瓣电影
- python爬虫样例
- Python爬虫代码
- python爬虫 破解js加密有道词典案列的
- python爬虫之豆瓣电影使用requests、lx
- 最好中国大学近几年排名及python爬虫
- python爬虫爬取企业详细信息
- 新浪微博爬虫代码+结果
- python爬虫淘宝图片
- python爬虫爬取企查查公司工商信息
- 一加云服务照片批量导出 Python爬虫
- Python爬虫抓取Ebay页面
- python爬取豆瓣每个账户对电影的评分
- 使用python对淘宝商品信息数据进行爬
- python爬虫Scrapy(一)-我爬了boss数据
- 豆瓣电影信息Python爬虫存入MongoDB.一分
- Python爬虫文件:爬取图片的程序.py
- 基于Python爬虫的股票信息爬取保存到
- Python爬虫每日抓取必应壁纸
- Python爬虫源码—爬取猫途鹰官方旅游
- python爬取百度搜索新闻,并自动生成
评论
共有 条评论