资源简介
爬取百度新闻的新闻,并可以进行主题搜索,搜索结果按照主题相关度进行排序
代码片段和文件信息
# -*- coding:utf-8 -*-
import urllib
import re
import time
import urllib
import os
from urllib import request
#创建爬取类,并申明相关属性和方法
class News:
#class具体的属性及函数
def __init__(selfurl):
httpobj = request.urlopen(url)
#read()读取url信息
html = httpobj.read()
#网页编码格式为gb2312
htmltext = html.decode(‘gb2312‘‘ignore‘)
#正则表达式匹配新闻标题
pat = ‘]*)“ mon=“[^>“]*“ target=“[^>“]*“>([^>#]*)‘
result = re.findall(pathtmltext)
pat =‘]*)“ target=“[^>“]*“ class=“[^>“]*“ mon=“[^>“]*“>([^>#]*)‘
added = re.findall(pathtmltext)
result.extend(added)
pat =‘]*)“ target=“[^>“]*“ mon=“[^>“]*“>([^>#]*)‘
added = re.findall(pathtmltext)
result.extend(added)
se = set(result)
result = list(se)
#replace()将文章标题中的quot取消
#将匹配出的标题和URL加入到data列表中
self.data = [[item[0]item[1].replace(‘"‘‘“‘)] for item in result]
#提取关键字,并将包含关键字的标题加入到target列表当中
def key(self):
self.key =input(“输入关键字:“)
self.target = []
for item in self.data :
if self.key in item[1]:
self.target.append(item)
#返回与关键字相关的新闻个数
return len(self.target)
#访问匹配到的新闻信息
def visit(self):
for i in range(len(self.target)):
url = self.target[i][0]
httpobj = request.urlopen(url)
html = httpobj.read()
#百度新闻网页的编码格式为gb2312
htmltext = html.decode(‘gb2312‘‘ignore‘)
#相关度匹配
#在新闻全文当中匹配关键
相关资源
- Python-京东抢购助手包含登录查询商品
- python网络爬虫获取景点信息源码
- python爬取维基百科程序语言消息盒(
- python新浪微博爬虫
- 12306爬虫实现
- 中国裁判文书网爬虫
- Python爬虫相关书籍.zip
- 豆瓣电影排行爬虫
- 疫情数据爬虫并绘制柱状图.py
- python新浪微博爬虫,爬取微博和用户
- Python数据爬虫及可视化分析
- 一套最新价值1680元的python爬虫实战全
- 测试工程师相关学习视频(包含pyth
- 11-Python爬虫工程师-App抓取进阶
- 基于10000网页python搭建搜索引擎课程设
- 法律判决文书python爬虫、以及数据处
- python新浪微博爬虫,爬取微博和用户
- Python网络爬虫实战.epub
- Python爬虫、Flask框架与ECharts实现数据
- Python爬虫入门到实战 (二花) PDF版
- python网络爬虫爬取整个网页
- Python-利用Python图虫网摄影作品
- ScrapyMySQL爬取链家网中北京地区租房信
- 学习python爬虫看一篇就足够了之爬取
- python3爬虫
- Python项目案例开发从入门到实战源代
- 基于Python的网络爬虫系统的设计与实
- 基于Python的分布式网络爬虫系统的设
- 爬取优酷电影代码
- 基于Python网络爬虫毕业论文.doc
评论
共有 条评论