资源简介
1、对微博数据进行信息采集。
2、对微博数据进行文本特征项抽取。
3、对文本进行向量化。
4、采取相似度公式进行相似度计算和对比。
5、采用K均值聚类算法进行聚类。
6、结合导致微博热点话题产生的各个因素提出了一个用来计算话题热度的公式,进行热度评估。
2、对微博数据进行文本特征项抽取。
3、对文本进行向量化。
4、采取相似度公式进行相似度计算和对比。
5、采用K均值聚类算法进行聚类。
6、结合导致微博热点话题产生的各个因素提出了一个用来计算话题热度的公式,进行热度评估。
代码片段和文件信息
# coding:utf-8
# version:python3.7
# author:Ivy
import random
import requests
import re
# 爬取代理网站上可以用的代理,建立代理池
class Proxies:
def __init__(self):
self.proxy_list = []
self.headers = {
“User-Agent“: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML like Gecko) “
“Chrome/45.0.2454.101 Safari/537.36“
‘Accept-Encoding‘: ‘gzip deflate sdch‘
}
# 爬取西刺代理的国内高匿代理
def get_proxy_nn(self):
proxy_list = []
res = requests.get(“http://www.xicidaili.com/nn“ headers=self.headers)
ip_list = re.findall(‘(\d+\.\d+\.\d+\.\d+) ‘ res.text)
port_list = re.findall(‘(\d+) ‘ res.text)
for ip port in zip(ip_list port_list):
proxy_list.append(ip + “:“ + port)
return proxy_list
# 验证代理是否能用
def verify_proxy(self proxy_list):
for proxy in proxy_list:
proxies = {
“http“: proxy
}
try:
if requests.get(‘http://www.baidu.com‘ proxies=proxies timeout=5).status_code == 200:
if proxy not in self.proxy_list:
self.proxy_list.append(proxy)
print(‘Success‘proxy)
except:
print(‘Fail‘proxy)
# 保存到ippool这个List里
def save_proxy(self):
ippool=[]
print(“开始存入代理池...“)
# 把可用的代理添加到代理池中
for proxy in self.proxy_list:
proxies={“http“:proxy}
ippool.append(proxies)
return ippool
# 使用上面的类建立代理池
def buildippool():
p = Proxies()
results = p.get_proxy_nn()
print(“爬取到的代理数量“ len(results))
print(“开始验证:“)
p.verify_proxy(results)
print(“验证完毕:“)
print(“可用代理数量:“ len(p.proxy_list))
ippool = p.save_proxy()
return ippool
# 随机选择一个代理
def random_ip(ippool):
num = random.randint(0len(ippool)-1) #随机选一个0到10的整数
return ippool[num]
if __name__ == ‘__main__‘:
ippool = buildippool()
print(ippool)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 56179 2020-02-15 17:29 article.csv
文件 2354 2020-02-13 13:58 buildip.py
文件 49990 2020-02-15 17:29 cut.txt
文件 0 2020-02-15 17:26 error.txt
文件 997 2020-02-15 20:19 matrix.py
文件 3958 2020-02-15 17:27 spider.py
文件 2888 2020-02-15 17:17 td_idf.py
文件 1025 2020-02-15 17:14 test.py
- 上一篇:AHP层次分析法Python实现代码.rar
- 下一篇:维吉尼亚唯密文破解
相关资源
- python实现SGBM图像匹配算法
- python实现灰度直方图均衡化
- scrapy_qunar_one
- Python学习全系列教程永久可用
- python简明教程.chm
- 抽奖大转盘python的图形化界面
- 双边滤波器实验报告及代码python
- python +MYSQL+HTML实现21蛋糕网上商城
- Python-直播答题助手自动检测出题搜索
- OpenCV入门教程+OpenCV官方教程中文版
- Python 串口工具源码+.exe文件
- Python开发的全栈股票系统.zip
- Python操作Excel表格并将其中部分数据写
- python书籍 PDF
- 利用python绘制散点图
- python+labview+No1.vi
- 老男孩python项目实战
- python源码制作whl文件.rar
- python3.5可用的scipy
- PYTHON3 经典50案例.pptx
- 计算机科学导论-python.pdf
- python模拟鼠标点击屏幕
- windows鼠标自动点击py脚本
- 鱼c小甲鱼零基础学python全套课后题和
- Python 练习题100道
- Practical Programming 2nd Edition
- wxPython Application Development Cookbook
- python 3.6
- Python 3.5.2 中文文档 互联网唯一CHM版本
- python3.5.2.chm官方文档
评论
共有 条评论