资源简介
利用python编写了一个爬虫代码,爬取房天下商品房信息,可以更改链接地址,爬取其他信息
代码片段和文件信息
#!usr/bin/python
#-*-coding:utf-8-*-
#coding:gbk
from lxml import etree
import requests
import re
import numpy as np
import json
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
def fangtianxia(url):
head={‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/45.0.2454.101 Safari/537.36‘}
html=requests.get(urlheaders=head).content.decode(‘gbk‘)
selector=etree.HTML(html)
content_field=selector.xpath(‘//div[@class=“nl_con clearfix“]/ul‘)[0]
urlurl_lpurl_hx=[][][]
file=open(‘fangtianxia.txt‘‘a‘)
for each in content_field.xpath(‘li‘):
website=each.xpath(‘div[1]/div[2]/div[1]/div[1]/a‘)[0].xpath(‘@href‘)[0]
url.append(website)
loupan=each.xpath(‘div[1]/div[2]/div[1]/div[1]/a/text()‘)[0].strip()
try:
region=each.xpath(‘div[1]/div[2]/div[3]/div[1]/a/span/text()‘)[0].replace(“]“““).replace(“[“““).strip()
except Exceptione:
print e
region=np.nan
try:
address = each.xpath(‘div[1]/div[2]/div[3]/div[1]/a‘)[0].xpath(‘@title‘)[0]
except Exceptione:
address=np.nan
try:
price=each.xpath(‘div[1]/div[2]/div[5]/span/text()‘)[0]+each.xpath(‘div[1]/div[2]/div[5]/em/text()‘)[0]
except Exceptione:
print e
price=np.nan
try:
phone=each.xpath(‘div[1]/div[2]/div[3]/div[2]/p/text()[1]‘)[0]+“转“ + each.xpath(‘div[1]/div[2]/div[3]/div[2]/p/text()[2]‘)[0]
except Exception e:
print e
phone = np.nan
print we
- 上一篇:python爬取雅虎财经股票交易数据
- 下一篇:python实现图片个性化文字编辑
相关资源
- python网络爬虫获取景点信息源码
- Python爬虫相关书籍.zip
- 疫情数据爬虫并绘制柱状图.py
- python新浪微博爬虫,爬取微博和用户
- Python数据爬虫及可视化分析
- 一套最新价值1680元的python爬虫实战全
- 11-Python爬虫工程师-App抓取进阶
- 法律判决文书python爬虫、以及数据处
- Python网络爬虫实战.epub
- Python爬虫、Flask框架与ECharts实现数据
- Python爬虫入门到实战 (二花) PDF版
- python网络爬虫爬取整个网页
- 学习python爬虫看一篇就足够了之爬取
- 基于Python的网络爬虫系统的设计与实
- 基于Python的分布式网络爬虫系统的设
- 基于Python网络爬虫毕业论文.doc
- 基于Python智联招聘牌爬虫+本科毕业论
- Python爬虫开源项目代码
- 《Python爬虫-开发与项目实战》源码
- 用Python写网络爬虫.pdf 高清带书签
- Python3网络爬虫数据采集
- 用python写网络爬虫 PDF版
- Python爬虫爬取智联招聘
- 用Python写网络爬虫.pdf 高清版
- 用Python写网络爬虫PDF-理查德 劳森Ri
- 用Python写网络爬虫.pdf
- Python爬虫入门:如何爬取招聘网站并
- 基于selenium模拟天眼查登录并爬取企业
- python爬虫爬取杭州市幼儿园信息
- python程序设计基于网络爬虫的电影评
评论
共有 条评论