资源简介
搜狗的细胞词库是一个开放共享的词库,本程序是使用python获取搜狗词库官网上的所有下载链接,下载词库并进行分类保存。需要注意的是,下载过来的文件格式为:.scel 如果要转换为.txt,欢迎查看我的另一个下载资源。欢迎下载交流!
代码片段和文件信息
#!/usr/bin/env python
# _*_ coding:utf-8 _*_
#
# @Version : 1.0
# @Time : 2018/9/10
# @Author : 圈圈烃
# @File : Sougou_Spider
# @Description: 搜狗词库爬虫
#
#
from bs4 import BeautifulSoup
from urllib.parse import unquote
import requests
import re
import os
class SougouSpider:
headers = {
“User-Agent“: “Mozilla/5.0 (Windows NT 10.0; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0“
“Accept“: “text/htmlapplication/xhtml+xmlapplication/xml;q=0.9*/*;q=0.8“
“Accept-Language“: “zh-CNzh;q=0.8zh-TW;q=0.7zh-HK;q=0.5en-US;q=0.3en;q=0.2“
“Accept-Encoding“: “gzip deflate“
“Connection“: “keep-alive“
}
res = ‘‘
def __init__(self url):
self.url = url
def get_html(self open_proxy=False ip_proxies=None):
try:
pattern = re.compile(r‘//(.*?)/‘)
host_url = pattern.findall(self.url)[0]
SougouSpider.headers[“Host“] = host_url
if open_proxy: # 判断是否开启代理
proxies = {“http“: “http://“ + ip_proxies } # 设置代理,例如{“http“: “http://103.109.58.242:8080“ }
SougouSpider.res = requests.get(self.url headers=SougouSpider.headers proxies=proxies timeout=5)
else:
SougouSpider.res = requests.get(self.url headers=SougouSpider.headers timeout=5)
SougouSpider.res.encoding = SougouSpider.res.apparent_encoding # 自动确定html编码
print(“Html页面获取成功 “ + self.url)
return SougouSpider.res # 只返回页面的源码
except Exception as e:
print(“Html页面获取失败 “ + self.url)
print(e)
def get_cate_1_list(self):
# 获取大分类链接
dict_cate_1_urls = []
soup = BeautifulSoup(SougouSpider.res.text “html.parser“)
dict_nav = soup.find(“div“ id=“dict_nav_list“)
dict_nav_lists = dict_nav.find_all(“a“)
for dict_nav_list in dict_nav_lists:
dict_nav_url = “https://pinyin.sogou.com“ + dict_nav_list[‘href‘]
dict_cate_1_urls.append(dict_nav_url)
return dict_cate_1_urls
def get_cate_2_1_list(self):
# 获取第一种小分类链接
dict_cate_2_1_dict = {}
soup = BeautifulSoup(SougouSpider.res.text “html.parser“)
dict_td_lists = soup.find_all(“div“ class_=“cate_no_child citylistcate no_select“)
for dict_td_list in dict_td_lists:
dict_td_url = “https://pinyin.sogou.com“ + dict_td_list.a[‘href‘]
dict_cate_2_1_dict[dict_td_list.get_text().replace(“\n“ ““)] = dict_td_url
return dict_cate_2_1_dict
def get_cate_2_2_list(self):
# 获取第二种小分类链接
dict_cate_2_2_dict = {}
soup = BeautifulSoup(SougouSpider.res.text “html.parser“)
dict_td_lists = soup.find_all(“div“ class_=“cate_no_child no_select“)
# 类型1解析
for dict_td_list in dict_td_lists:
dict_td_url = “https://pinyin.sogou.com“ + dict_td_list.a
- 上一篇:scel2txt.py
- 下一篇:keywordsearch
相关资源
- python爬取小说源码,仅供学习使用
- GrabClass.py爬取武汉理工大学课表
- py新浪微博爬虫通过修改最后的uid值即
- 高效爬取微博数据python3实现
- python3网络爬虫与开发实战崔庆才PDF百
- 基于Python专业网络爬虫的设计与实现
- 爬虫视频案例课程----崔庆财
- 微博关键字爬虫代码
- python爬取豆瓣每个账户对电影的评分
- 使用python对淘宝商品信息数据进行爬
- Python_百科爬虫
- python爬虫Scrapy(一)-我爬了boss数据
- 豆瓣电影信息Python爬虫存入MongoDB.一分
- Python爬虫文件:爬取图片的程序.py
- 搜狗词库(scel)转化成txt
- Python搜索爬虫抓取超高清视频
- 微博图片视频小爬虫
- 基于Python爬虫的股票信息爬取保存到
- Python简单网页爬虫
- Python爬虫每日抓取必应壁纸
- Python 3网络爬虫开发实战
- isbn查询书籍详细信息2.0
- 大批量图片爬虫工具可以自动上万张
- 利用爬虫获取IP的地理位置
- Python爬虫源码—爬取猫途鹰官方旅游
- 爬取瓜子二手车.py
- 用python实现一个百度百科的爬虫工具
- 问卷星爬虫带验证码
- python爬取亚马逊排名
- 知乎爬虫
评论
共有 条评论