资源简介
代码片段和文件信息
import requests
from bs4 import BeautifulSoup
import re
import json
import jieba
#获取html页面信息
def getKeywordResult(keyword pagenum):
url = ‘http://www.baidu.com/s?wd=‘ + keyword + ‘&pn=‘ + pagenum + ‘0‘
try:
r = requests.get(url timeout=30)
r.raise_for_status()
r.encoding = ‘utf-8‘
return r.text
except:
return ““
#解析并抽取数据
def parserlinks(html):
soup = BeautifulSoup(html “html.parser“)
links = []
for div in soup.find_all(‘div‘ {‘data-tools‘:re.compile(‘title‘)}):
data = div.attrs[‘data-tools‘]
d = json.loads(data)
links.append(d[‘title‘])
words_all.append(d[‘title‘])
return links words_all
#词频统计
def words_ratio(words_all):
words = []
for i in words_all:
tmp = jieba.lcut(i)
相关资源
- 百度语音识别调用(voicechat.py)
- 爬取58同城二手房信息.py
- python爬虫爬取微博热搜
- python爬虫爬取旅游信息(附源码,c
- python爬虫爬取豆瓣电影信息
- 爬取上百张妹子图源码可直接运行
- xpath爬取豆瓣电影top250
- 动物图片识别.py(基于百度api)
- Python爬取小说
- python demo百度文库.py
- Python-直播答题助手自动检测出题搜索
- python+pyqt5+百度AI+车牌识别.rar
- python爬取维基百科程序语言消息盒(
- python3.5 百度ai人脸识别
- python新浪微博爬虫,爬取微博和用户
- 基于10000网页python搭建搜索引擎课程设
- python新浪微博爬虫,爬取微博和用户
- python网络爬虫爬取整个网页
- ScrapyMySQL爬取链家网中北京地区租房信
- Python-冲顶大会芝士超人西瓜视频头脑
- 学习python爬虫看一篇就足够了之爬取
- Python爬取淘宝上所有耐克鞋商品并进
- 百度图片器,批量百度图片,输入要
- Python项目案例开发从入门到实战源代
- 基于python的招聘网站分析源码及爬取
- 人工智能算法合集-python实现
- 中国大学MOOC课件爬取含视频
- 百度图像自动识别程序
- 爬取优酷电影代码
- 根据关键字爬虫谷歌、百度、必应图
评论
共有 条评论