资源简介
抓取了网易新闻里["国内","国际","航空"]和["军事","科技","体育","教育"]板块的新闻内容和评论并存到数据库中。
代码片段和文件信息
import json
import requests
import re
from selenium import webdriver
import time
import os
from bs4 import BeautifulSoup
import pymysql
def getHTMLText(url):
try:
headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0‘}
r = requests.get(url headers=headerstimeout = 30)
r.encoding = ‘GBK‘
r.raise_for_status()
return r.text
except:
return ““
def getContent(urlntype):
#===============================获取新闻页面==============================
tbnews_id = 0
commentids=[]
print(url)
html = getHTMLText(url)
soup = BeautifulSoup(html“html.parser“)
[s.extract() for s in soup([‘script‘‘style‘])]
title = soup.find_all(“h1“) #爬取标题
if title==[]:
return
else:tit=title[0].get_text()
path = soup.select(“.post_crumb“)
time=soup.select(“.post_time_source“) #爬取时间和来源
if time==[]:
tim =
- 上一篇:HFSS双极化喇叭天线设计
- 下一篇:学校签到小程序
相关资源
- 大话系列-大话数据结构(pdf高清版)
- 梁宁产品经理思维30讲.pdf
- CHI760E辰华电化学工作站软件最新版
- SAPERPHCM葵花宝典系列之配置指南(电
- TangZhuoLin.rar
- Day3_NOI.zip
- 图解HTTP.pdf
- VisionProStandardv7.2(2Day).zip
- ElevatorSimulation.zip
- 14002454IPC-A-610DChinese(L).pdf
- SoftwareEngineering.pdf
- linfanrong_10164999.rar
- The.Art.Of.Unit.Testing.With.Examples.in.C.2nd
- myGame.rar
- 带手机版数据同步财税代理公司注册
- pdf课本及习题答案.rar
- 深度学习PDF非扫描版(中文版)麻省
- doudizhu_shffule_src.zip
- 随机信号分析解题指南.pdf
- ios12.3驱动.zip
- 百万邮件系统多机版.rar
- learnopengl-cn-2018年5月更新.pdf
- zw_学习OpenCV(中文版).zip
- 1-300.pdf
- pyqt5windows生成二维工具源码
- KNN疾病预测算法Demo
- ABAQUS单元失效浅析(单元删除
- Jtopo+json格式数据代码
- 解多目标规划的单纯形代码
- TerraVolVoxelTerrainEngine2.1c.7z
评论
共有 条评论