资源简介
Python爬取论文标题、、摘要等信息并存入MySQL。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
代码片段和文件信息
import requests
from bs4 import BeautifulSoup
import re
import pymysql
global count
def getUrls():
all_items = 12*2+3
urls = []
partstr = “http://crad.ict.ac.cn/CN/volumn/volumn_“
for i in range(all_items+1):
strone = partstr + str(1300+i) + “.shtml“
urls.append(strone)
for url in urls:
yield url
def getHTMLText(url):
try:
r = requests.get(urltimeout=50)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return “error“
def getConnection():
connection = pymysql.connect(
host=“localhost“
port=3306
user=“root“
password=“123456“
database=“adnm“
charset=“utf8“
cursorclass=pymysql.cursors.DictCursor
)
return connection
def parsePage(infoList html):
soup = BeautifulSoup(html“html.parser“)
item = soup(name=‘a‘attrs={“class“:“biaoti“})
biaoti = re.findall(r‘target=“_blank“>(.*?) item = soup(name=‘dd‘attrs={“class“:“zuozhe“})
zuozhe = re.findall(r‘class=“zuozhe“>(.*?)
相关资源
- python爬虫的随机请求头+随机代理
- python爬虫网站图片
- 新浪财经24小时python爬虫程序内置企业
- 利用selenium对拉勾网的爬虫并将数据导
- python爬虫房天下商品房数据
- python爬取雅虎财经股票交易数据
- python爬虫爬取58租房信息
- Python爬虫实战之爬取网站全部图片
- python爬虫 抓取页面图片
- python百度地图商家爬虫
- Python爬虫教程千万别错过
- 利用Python爬虫批量百度图库图片
- 爬取58同城
- 千锋python爬虫教程之scrapy框架.txt
- 天猫评论爬虫
- 图虫网爬虫python实现
- 爬虫源码:分页爬取,mysql数据库连接
- 利用Python爬虫抓取网页上的图片含异
- python爬虫抓取百度贴吧中邮箱地址
- Python爬虫库requests获取响应内容、响应
- Python爬虫爬取51Job职位数据
- 利用python爬虫爬取王者荣耀数据.py
- Python爬虫爬取豆瓣电影
- python爬虫样例
- Python爬虫代码
- python爬虫 破解js加密有道词典案列的
- python爬虫之豆瓣电影使用requests、lx
- 最好中国大学近几年排名及python爬虫
- python爬虫爬取企业详细信息
- 新浪微博爬虫代码+结果
评论
共有 条评论