资源简介

Python爬虫抓取网页新闻数据到sqlserver数据库,按标题排除重复项,python3.7运行环境

资源截图

代码片段和文件信息

#coding=utf-8
‘‘‘
Created on 2018年10月31日
@author: lhm
测试代码
‘‘‘
import random
import time
import requests
import re
from bs4 import BeautifulSoup
import pyodbc


def getHTMLText(url):
    try:
        r = requests.get(url timeout = 30)
        r.raise_for_status()
        #r.encoding = ‘utf-8‘
        return r.text
    except:
        return ““

‘‘‘
getNewsPakge()
此函数用于获取News列表页面的url链接
返回值为列表pakge_urls
‘‘‘
def getNewsPakge():
    pakge_urls = []
    for i in range(112):
        if i != 1:
            url = ‘http://fund.eastmoney.com/a/cjjyw_‘ + str(i) + ‘.html‘
        else:
            url = ‘http://fund.eastmoney.com/a/cjjyw.html‘
        print(url)
        pakge_urls.append(url)
    return pakge_urls
 
‘‘‘
getNewsUrls()
此函数用于获取News链接用于后面的信息的访问ur

评论

共有 条评论