网站列表信息爬虫

大小: 3.45KB

文件类型: .py

金币: 1

下载: 0 次

发布日期: 2024-05-09
语言: Python
标签: 信息列表爬虫网站

高速下载

资源简介

资源截图

小图大图

代码片段和文件信息

from bs4 import BeautifulSoup #解析网页
import re #正则表达式，进行文字匹配
import urllib.requesturllib.error  #制定url，获取网页数据
import xlwt  #进行excel操作
import sqlite3  #进行SQLite数据库操作

def main（）:
    baseurl = “https://cy.ncss.cn/search/projects“
    #爬取网页
    datalist = getData（baseurl）
    #保存数据
    savepath = “50.xls“
    saveData（datalistsavepath）
#电影链接
findlink = re.compile（r‘‘）
#封面图片
findImgSrc = re.compile（r‘‘re.S）
#电影名称
findtitle = re.compile（r‘tle“>（.*）‘）
#评分
findRating = re.compile（r‘（.*）‘）
#评价人数
findJudge = re.compile（r‘（\d*）人评价‘）
#概况
findInq = re.compile（r‘（.*）‘）
#电影详细内容
findBd = re.compile（r‘（.*?）
‘re.S）

#爬取网页
def getData（baseurl）:
    datalist = []
    for i in range（010）:
        url = baseurl + str（i*25）
        html = askURL（url）


        #逐一解析数据
        soup = BeautifulSoup（html“html.parser“）
        for item in soup.find_all（‘div‘class_=“item“）:
            #print（item）
            data = []
            item = str（item）

            link = re.findall（findlinkitem）[0]
            data.append（link）

            ImgSrc = re.findall（findImgSrcitem）[0]
            data.append（ImgSrc）

            title = re.findall（findtitleitem）
            if len（title）==2:
                ctitle = title[0]
                data.append（ctitle）
                otitle = title[1].replace（“/“““）
                data.append（otitle）
            else:
                data.append（title[0]）
                data.append（‘ ‘）

            Rating = re.findall（f

上一篇：《大数据数学基础（Python语言描述）》源数据和代码
下一篇：labelImg-1.8.1（图片标注工具）

共有条评论

网站列表信息爬虫

资源简介

资源截图

代码片段和文件信息

评论

相关资源