资源简介
爬取百度新闻的新闻,并可以进行主题搜索,搜索结果按照主题相关度进行排序
代码片段和文件信息
# -*- coding:utf-8 -*-
import urllib
import re
import time
import urllib
import os
from urllib import request
#创建爬取类,并申明相关属性和方法
class News:
#class具体的属性及函数
def __init__(selfurl):
httpobj = request.urlopen(url)
#read()读取url信息
html = httpobj.read()
#网页编码格式为gb2312
htmltext = html.decode(‘gb2312‘‘ignore‘)
#正则表达式匹配新闻标题
pat = ‘]*)“ mon=“[^>“]*“ target=“[^>“]*“>([^>#]*)‘
result = re.findall(pathtmltext)
pat =‘]*)“ target=“[^>“]*“ class=“[^>“]*“ mon=“[^>“]*“>([^>#]*)‘
added = re.findall(pathtmltext)
result.extend(added)
pat =‘]*)“ target=“[^>“]*“ mon=“[^>“]*“>([^>#]*)‘
added = re.findall(pathtmltext)
result.extend(added)
se = set(result)
result = list(se)
#replace()将文章标题中的quot取消
#将匹配出的标题和URL加入到data列表中
self.data = [[item[0]item[1].replace(‘"‘‘“‘)] for item in result]
#提取关键字,并将包含关键字的标题加入到target列表当中
def key(self):
self.key =input(“输入关键字:“)
self.target = []
for item in self.data :
if self.key in item[1]:
self.target.append(item)
#返回与关键字相关的新闻个数
return len(self.target)
#访问匹配到的新闻信息
def visit(self):
for i in range(len(self.target)):
url = self.target[i][0]
httpobj = request.urlopen(url)
html = httpobj.read()
#百度新闻网页的编码格式为gb2312
htmltext = html.decode(‘gb2312‘‘ignore‘)
#相关度匹配
#在新闻全文当中匹配关键
相关资源
- 一个多线程智能爬虫,爬取网站小说
- 基于Python爬虫爬取天气预报信息
- 顶点小说单本书爬虫.py
- 一个简单的python爬虫
- 豆瓣爬虫;Scrapy框架
- 中国城市经纬度爬虫.ipynb
- Python爬虫数据分析可视化
- 网站列表信息爬虫
- 百度图片爬虫(python版)
- python爬取小说59868
- 彼岸花网壁纸爬虫
- Python 爬虫小说.ipynb
- 爬虫爬取网易云音乐
- 北邮python爬虫学堂在线
- python简单爬虫
- 爬取58同城二手房信息.py
- 知网爬虫软件(python)
- python爬虫爬取微博热搜
- python爬虫爬取旅游信息(附源码,c
- python爬虫爬取豆瓣电影信息
- 爬取上百张妹子图源码可直接运行
- Python爬虫实战入门教程
- 网络爬虫(pachong_anjuke.py)
- Python-京东抢购助手包含登录查询商品
- python网络爬虫获取景点信息源码
- python爬取维基百科程序语言消息盒(
- python新浪微博爬虫
- 12306爬虫实现
- 中国裁判文书网爬虫
- Python爬虫相关书籍.zip
评论
共有 条评论