• 大小: 2.29KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-03-01
  • 语言: Python
  • 标签: 小说  爬取  

资源简介

【实例简介】

主要功能模块及界面(截图)

代码的入口是

 

 

它首先是让用户输入书名,调用了下载模块

 

调用下载模块后会获得到小说的URL和小说名字,程序把获得小说的网址调用给获取章节模块

 

调用获取章节模块后会获得到小说的URL,得到小说的URL后,把传过来的URL的页面内容进行解析,把小说的章节个解析获取下了。并把传输显示和写入模块,进行每一个章节的URL内容解析,把每章的内容给循环取出,写入到TXT文本里面,而且还显示当前写入的章节名和爬取网站的总进度。


资源截图

代码片段和文件信息

import requests
import re
import time
import random

def download(book_name):
    # 下载模块
    search_real_url = ‘https://www.biquge5200.com/modules/article/search.php?searchkey=‘ + book_name
    try:
        novel_source = requests.get(search_real_url).text
        reg1 = r‘(.*?).*?(.*?)‘
        # 所有搜索到的结果(包括小说网址、名称、作者姓名)
        novel_list = re.findall(reg1 novel_source re.S)
        # 判断是否有数据返回
        if len(novel_list) == 0:
            print(‘搜索不到你要的小说‘)
    except Exception as e:
        print(e)
    for novel_url novel_name novel_author in novel_list:
        if novel_name == book_name:
            print(‘书名:%s 作者:%s‘ % (novel_name novel_author))
            return novel_url novel_name


def get_chapter(url):
    # 获取章节页面模块
    try:
        # 章节页面源代码
        chapter_page_source = requests.get(url).text
        reg2 = r‘
(.*?)

        chapter_list = re.fi

评论

共有 条评论