资源简介
python数据分析参考案例,在线选房系统代码和数据,网络收集
代码片段和文件信息
# -*- coding: utf-8 -*-
import requests #用来访问网页的库,好比浏览器
from bs4 import BeautifulSoup #爬虫库,用来抓取网页中的信息,它有一个可爱的名字beautifulsoup寓意一碗浓汤,我要从汤中捞出不同的美味
import time
import pandas as pd
def read_url(path):
path = path
data = pd.read_csv(pathengine=‘python‘)
try:
data_received = pd.read_csv(‘./house_inf_lianjia.csv‘engine=‘python‘)
print(‘导入爬取数据‘)
data_received_list = data_received[‘url‘].tolist()
print(‘转换表格‘)
url_list = data[~data[‘url‘].isin(data_received_list)][‘url‘].unique().tolist()
print(‘剔除已爬取数据‘)
print(len(url_list))
except :
url_list = data[‘url‘].unique().tolist()
data = pd.Dataframe(
columns=[‘house_id‘ ‘name‘ ‘price‘ ‘area_price‘ ‘area‘ ‘room‘ ‘livingroom‘ ‘kitchenroom‘
‘bathroom‘ ‘lng‘ ‘lat‘ ‘url‘])
data.to_csv(‘./house_inf_lianjia.csv‘ encoding=‘gbk‘ index=0)
print(‘无历史数据‘)
return url_list
def save_data():
data = pd.Dataframe(data_lcolumns = [‘house_id‘‘name‘‘price‘‘area_price‘‘area‘‘room‘‘livingroom‘‘kitchenroom‘‘bathroom‘‘lng‘‘lat‘‘url‘])
data.to_csv(‘./house_inf_lianjia.csv‘encoding=‘gbk‘index=0mode=‘a+‘header=False)
def craw_inf(url_list):
#time.sleep(1)
headers={
‘UserAgent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/67.0.3396.99 Safari/537.36‘}
n = 0
for url in url_list:
n += 1
try:
web = requests.get(urlheaders=headers)
soup = BeautifulSoup(web.text‘lxml‘)
names = soup.select(‘body > div.sellDetailHeader > div > div > div.title > h1‘)
prices = soup.select(‘body > div.overview > div.content > div.price > span.total‘)
area_prices = soup.select(‘body > div.overview > div.content > div.price > div.text > div.unitPrice > span‘)
areas = soup.select(‘body > div.overview > div.content > div.houseInfo > div.area > div.mainInfo‘)
room_types = soup.select(‘#introduction > div > div > div.base > div.content > ul > li‘)
lng = soup.get_text().split(“resblockPosition:‘“)[1].split(‘‘)[0]
lat = soup.get_text().split(“resblockPosition:‘“)[1].split(‘‘)[1].split(“‘“)[0]
for namepricearea_pricearearoom_type in zip(namespricesarea_pricesareasroom_types):
#print(name.get_text()price.get_text()area_price.get_text()area.get_text()room_type.get_text()lnglat)
house_id = url.split(‘https://sh.lianjia.com/ershoufang/‘)[1].split(‘.‘)[0]
name = name.get_text()
price = price.get_text()
area_price = area_price.get_text().split(‘元‘)[0]
area = area.get_text().split(‘平‘)[0]
room = room_type.get_text().split(‘房屋户型‘)[1].split(‘室‘)[0]
livingroom = room_type.get_text().split(‘室‘)[1].split(‘厅‘
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-11-15 19:09 【参考】在线选房系统代码和数据\
目录 0 2018-11-15 19:09 【参考】在线选房系统代码和数据\.idea\
文件 185 2018-11-15 17:04 【参考】在线选房系统代码和数据\.idea\misc.xm
文件 276 2018-11-15 17:04 【参考】在线选房系统代码和数据\.idea\modules.xm
文件 14845 2018-11-15 17:04 【参考】在线选房系统代码和数据\.idea\workspace.xm
文件 488 2018-11-15 17:04 【参考】在线选房系统代码和数据\.idea\线性回归.iml
文件 6693 2018-11-15 17:04 【参考】在线选房系统代码和数据\coefficients.xlsx
文件 3944 2018-11-15 17:04 【参考】在线选房系统代码和数据\get_information.py
文件 2462 2018-11-15 17:04 【参考】在线选房系统代码和数据\get_url.py
文件 215272 2018-11-15 17:04 【参考】在线选房系统代码和数据\house_inf_lianjia.csv
文件 531317 2018-11-15 17:04 【参考】在线选房系统代码和数据\model_data.csv
文件 2456 2018-11-15 17:04 【参考】在线选房系统代码和数据\model_project.R
文件 1587712 2018-11-15 17:04 【参考】在线选房系统代码和数据\project.mxd
文件 21570583 2018-11-15 17:04 【参考】在线选房系统代码和数据\RData
文件 8984 2018-11-15 17:04 【参考】在线选房系统代码和数据\Rhistory
文件 1396 2018-11-15 17:04 【参考】在线选房系统代码和数据\schema.ini
文件 3158169 2018-11-15 17:04 【参考】在线选房系统代码和数据\urls.csv
文件 5 2018-11-15 17:04 【参考】在线选房系统代码和数据\上海街镇.CPG
文件 21510 2018-11-15 17:04 【参考】在线选房系统代码和数据\上海街镇.dbf
文件 145 2018-11-15 17:04 【参考】在线选房系统代码和数据\上海街镇.prj
文件 2204 2018-11-15 17:04 【参考】在线选房系统代码和数据\上海街镇.sbn
文件 276 2018-11-15 17:04 【参考】在线选房系统代码和数据\上海街镇.sbx
文件 2298968 2018-11-15 17:04 【参考】在线选房系统代码和数据\上海街镇.shp
文件 639 2018-11-15 17:04 【参考】在线选房系统代码和数据\上海街镇.shp.xm
文件 1796 2018-11-15 17:04 【参考】在线选房系统代码和数据\上海街镇.shx
文件 64 2018-11-15 17:04 【参考】在线选房系统代码和数据\地理处理.ldb
文件 33869824 2018-11-15 17:04 【参考】在线选房系统代码和数据\地理处理.mdb
文件 2617387 2018-11-15 17:04 【参考】在线选房系统代码和数据\您的在线选房系统已上线.docx
文件 2603087 2018-11-15 17:52 【参考】在线选房系统代码和数据\美团美食——上海市.csv
- 上一篇:《机器学习实战》pdf及所和数据集文件
- 下一篇:python ppt
相关资源
- 利用python进行数据分析-中文第二版
- Python数据分析基础.pdf
- Python数据分析与挖掘实战.zip
- NumPy攻略:Python科学计算与数据分析
- Python Data Analysis数据分析基础(中文
- 对比Excel,轻松学习Python数据分析1-
- Python金融大数据分析 完整.pdf版
- 利用python数据分析第二版-中文版&英文
- Python数据分析.mobi
- 航空公司客户价值大数据分析源代码
- 利用python进行简单案例数据分析
- Python数据分析与挖掘实战_数据及程序
- Python金融大数据分析,带目录
- 图灵书籍(Python数据分析基础.pdf+Py
- Python数据处理 中文完整清晰版 PDF
- Python金融大数据分析.源码.py4fi-maste
- Python数据分析基础.pdf 清晰中文完整版
- python数据分析之numpy-pandas-matplotlib-常
- python程序爬取股票每分钟数据并且进
- python数据分析与应用源数据和代码
- 《Python金融大数据分析》高清完整P
- python——大数据分析
- Python金融大数据分析Python爬取京东手
- Python金融大数据分析.zip
- 《Python 3数据分析与机器学习实战》自
- 《Python 3数据分析与机器学习实战》随
- 利用Python做数据分析.mobi
- 利用python进行数据分析Python For Data
- 利用python进行数据分析.pdf (中文完整
- 上海行政区、人口和道路的gis数据.
评论
共有 条评论