资源简介


资源截图

代码片段和文件信息

from bs4 import BeautifulSoup #解析网页
import re #正则表达式,进行文字匹配
import urllib.requesturllib.error  #制定url,获取网页数据
import xlwt  #进行excel操作
import sqlite3  #进行SQLite数据库操作

def main():
    baseurl = “https://cy.ncss.cn/search/projects“
    #爬取网页
    datalist = getData(baseurl)
    #保存数据
    savepath = “50.xls“
    saveData(datalistsavepath)
#电影链接
findlink = re.compile(r‘‘)
#封面图片
findImgSrc = re.compile(r‘‘re.S)
#电影名称
findtitle = re.compile(r‘tle“>(.*)‘)
#评分
findRating = re.compile(r‘(.*)‘)
#评价人数
findJudge = re.compile(r‘(\d*)人评价‘)
#概况
findInq = re.compile(r‘(.*)‘)
#电影详细内容
findBd = re.compile(r‘(.*?)

‘re.S)

#爬取网页
def getData(baseurl):
    datalist = []
    for i in range(010):
        url = baseurl + str(i*25)
        html = askURL(url)


        #逐一解析数据
        soup = BeautifulSoup(html“html.parser“)
        for item in soup.find_all(‘div‘class_=“item“):
            #print(item)
            data = []
            item = str(item)

            link = re.findall(findlinkitem)[0]
            data.append(link)

            ImgSrc = re.findall(findImgSrcitem)[0]
            data.append(ImgSrc)

            title = re.findall(findtitleitem)
            if len(title)==2:
                ctitle = title[0]
                data.append(ctitle)
                otitle = title[1].replace(“/“““)
                data.append(otitle)
            else:
                data.append(title[0])
                data.append(‘ ‘)

            Rating = re.findall(f

评论

共有 条评论