Python爬虫抓取网页新闻数据到sqlserver数据库中

大小: 3KB

文件类型: .py

金币: 1

下载: 0 次

发布日期: 2021-01-03
语言: Python
标签: python 新闻爬取 sqlser

高速下载

资源简介

Python爬虫抓取网页新闻数据到sqlserver数据库，按标题排除重复项，python3.7运行环境

资源截图

小图大图

代码片段和文件信息

#coding=utf-8
‘‘‘
Created on 2018年10月31日
@author: lhm
测试代码
‘‘‘
import random
import time
import requests
import re
from bs4 import BeautifulSoup
import pyodbc


def getHTMLText（url）:
    try:
        r = requests.get（url timeout = 30）
        r.raise_for_status（）
        #r.encoding = ‘utf-8‘
        return r.text
    except:
        return ““

‘‘‘
getNewsPakge（）
此函数用于获取News列表页面的url链接
返回值为列表pakge_urls
‘‘‘
def getNewsPakge（）:
    pakge_urls = []
    for i in range（112）:
        if i != 1:
            url = ‘http://fund.eastmoney.com/a/cjjyw_‘ + str（i） + ‘.html‘
        else:
            url = ‘http://fund.eastmoney.com/a/cjjyw.html‘
        print（url）
        pakge_urls.append（url）
    return pakge_urls
 
‘‘‘
getNewsUrls（）
此函数用于获取News链接用于后面的信息的访问ur

上一篇：python语言提取abaqus的odb文件数据的简单程序
下一篇：python爬取豆瓣电影Top250

共有条评论

Python爬虫抓取网页新闻数据到sqlserver数据库中

资源简介

资源截图

代码片段和文件信息

评论

相关资源