• 大小: 41.19MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-07-30
  • 语言: Python
  • 标签: 数据分析  

资源简介

python数据分析参考案例,在线选房系统代码和数据,网络收集

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-

import requests #用来访问网页的库,好比浏览器
from bs4 import BeautifulSoup #爬虫库,用来抓取网页中的信息,它有一个可爱的名字beautifulsoup寓意一碗浓汤,我要从汤中捞出不同的美味
import time
import pandas as pd

def read_url(path):
    path = path
    data = pd.read_csv(pathengine=‘python‘)
    try:
        data_received = pd.read_csv(‘./house_inf_lianjia.csv‘engine=‘python‘)
        print(‘导入爬取数据‘)
        data_received_list = data_received[‘url‘].tolist()
        print(‘转换表格‘)
        url_list = data[~data[‘url‘].isin(data_received_list)][‘url‘].unique().tolist()
        print(‘剔除已爬取数据‘)
        print(len(url_list))
    except :
        url_list = data[‘url‘].unique().tolist()
        data = pd.Dataframe(
            columns=[‘house_id‘ ‘name‘ ‘price‘ ‘area_price‘ ‘area‘ ‘room‘ ‘livingroom‘ ‘kitchenroom‘
                     ‘bathroom‘ ‘lng‘ ‘lat‘ ‘url‘])
        data.to_csv(‘./house_inf_lianjia.csv‘ encoding=‘gbk‘ index=0)
        print(‘无历史数据‘)
    return url_list

def save_data():
    data = pd.Dataframe(data_lcolumns = [‘house_id‘‘name‘‘price‘‘area_price‘‘area‘‘room‘‘livingroom‘‘kitchenroom‘‘bathroom‘‘lng‘‘lat‘‘url‘])
    data.to_csv(‘./house_inf_lianjia.csv‘encoding=‘gbk‘index=0mode=‘a+‘header=False)

def craw_inf(url_list):
    #time.sleep(1)
    headers={
        ‘UserAgent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/67.0.3396.99 Safari/537.36‘}
    n = 0
    for url in url_list:
        n += 1
        try:
            web = requests.get(urlheaders=headers)
            soup = BeautifulSoup(web.text‘lxml‘)
            names = soup.select(‘body > div.sellDetailHeader > div > div > div.title > h1‘)
            prices = soup.select(‘body > div.overview > div.content > div.price > span.total‘)
            area_prices = soup.select(‘body > div.overview > div.content > div.price > div.text > div.unitPrice > span‘)
            areas = soup.select(‘body > div.overview > div.content > div.houseInfo > div.area > div.mainInfo‘)
            room_types = soup.select(‘#introduction > div > div > div.base > div.content > ul > li‘)
            lng = soup.get_text().split(“resblockPosition:‘“)[1].split(‘‘)[0]
            lat = soup.get_text().split(“resblockPosition:‘“)[1].split(‘‘)[1].split(“‘“)[0]
            for namepricearea_pricearearoom_type in zip(namespricesarea_pricesareasroom_types):
                #print(name.get_text()price.get_text()area_price.get_text()area.get_text()room_type.get_text()lnglat)
                house_id = url.split(‘https://sh.lianjia.com/ershoufang/‘)[1].split(‘.‘)[0]
                name = name.get_text()
                price = price.get_text()
                area_price = area_price.get_text().split(‘元‘)[0]
                area = area.get_text().split(‘平‘)[0]
                room = room_type.get_text().split(‘房屋户型‘)[1].split(‘室‘)[0]
                livingroom = room_type.get_text().split(‘室‘)[1].split(‘厅‘

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-11-15 19:09  【参考】在线选房系统代码和数据\
     目录           0  2018-11-15 19:09  【参考】在线选房系统代码和数据\.idea\
     文件         185  2018-11-15 17:04  【参考】在线选房系统代码和数据\.idea\misc.xml
     文件         276  2018-11-15 17:04  【参考】在线选房系统代码和数据\.idea\modules.xml
     文件       14845  2018-11-15 17:04  【参考】在线选房系统代码和数据\.idea\workspace.xml
     文件         488  2018-11-15 17:04  【参考】在线选房系统代码和数据\.idea\线性回归.iml
     文件        6693  2018-11-15 17:04  【参考】在线选房系统代码和数据\coefficients.xlsx
     文件        3944  2018-11-15 17:04  【参考】在线选房系统代码和数据\get_information.py
     文件        2462  2018-11-15 17:04  【参考】在线选房系统代码和数据\get_url.py
     文件      215272  2018-11-15 17:04  【参考】在线选房系统代码和数据\house_inf_lianjia.csv
     文件      531317  2018-11-15 17:04  【参考】在线选房系统代码和数据\model_data.csv
     文件        2456  2018-11-15 17:04  【参考】在线选房系统代码和数据\model_project.R
     文件     1587712  2018-11-15 17:04  【参考】在线选房系统代码和数据\project.mxd
     文件    21570583  2018-11-15 17:04  【参考】在线选房系统代码和数据\RData
     文件        8984  2018-11-15 17:04  【参考】在线选房系统代码和数据\Rhistory
     文件        1396  2018-11-15 17:04  【参考】在线选房系统代码和数据\schema.ini
     文件     3158169  2018-11-15 17:04  【参考】在线选房系统代码和数据\urls.csv
     文件           5  2018-11-15 17:04  【参考】在线选房系统代码和数据\上海街镇.CPG
     文件       21510  2018-11-15 17:04  【参考】在线选房系统代码和数据\上海街镇.dbf
     文件         145  2018-11-15 17:04  【参考】在线选房系统代码和数据\上海街镇.prj
     文件        2204  2018-11-15 17:04  【参考】在线选房系统代码和数据\上海街镇.sbn
     文件         276  2018-11-15 17:04  【参考】在线选房系统代码和数据\上海街镇.sbx
     文件     2298968  2018-11-15 17:04  【参考】在线选房系统代码和数据\上海街镇.shp
     文件         639  2018-11-15 17:04  【参考】在线选房系统代码和数据\上海街镇.shp.xml
     文件        1796  2018-11-15 17:04  【参考】在线选房系统代码和数据\上海街镇.shx
     文件          64  2018-11-15 17:04  【参考】在线选房系统代码和数据\地理处理.ldb
     文件    33869824  2018-11-15 17:04  【参考】在线选房系统代码和数据\地理处理.mdb
     文件     2617387  2018-11-15 17:04  【参考】在线选房系统代码和数据\您的在线选房系统已上线.docx
     文件     2603087  2018-11-15 17:52  【参考】在线选房系统代码和数据\美团美食——上海市.csv

评论

共有 条评论