资源简介
今日头条38万条新闻数据,可用于文本分类模型训练,可用LSTM模型训练
代码片段和文件信息
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 今日头条新闻分类数据爬取
import requests
import json
import time
import random
‘‘‘
100 民生 故事 news_story
101 文化 文化 news_culture
102 娱乐 娱乐 news_entertainment
103 体育 体育 news_sports
104 财经 财经 news_finance
105 时政 新时代 nineteenth
106 房产 房产 news_house
107 汽车 汽车 news_car
108 教育 教育 news_edu
109 科技 科技 news_tech
110 军事 军事 news_military
111 宗教 无,凤凰佛教等来源
112 旅游 旅游 news_travel
113 国际 国际 news_world
114 证券 股票 stock
115 农业 三农 news_agriculture
116 电竞 游戏 news_game
‘‘‘
g_cnns = [
[100 ‘民生 故事‘ ‘news_story‘]
[101 ‘文化 文化‘ ‘news_culture‘]
[102 ‘娱乐 娱乐‘ ‘news_entertainment‘]
[103 ‘体育 体育‘ ‘news_sports‘]
[104 ‘财经 财经‘ ‘news_finance‘]
# [105 ‘时政 新时代‘ ‘nineteenth‘]
[106 ‘房产 房产‘ ‘news_house‘]
[107 ‘汽车 汽车‘ ‘news_car‘]
[108 ‘教育 教育‘ ‘news_edu‘ ]
[109 ‘科技 科技‘ ‘news_tech‘]
[110 ‘军事 军事‘ ‘news_military‘]
# [111 宗教 无,凤凰佛教等来源]
[112 ‘旅游 旅游‘ ‘news_travel‘]
[113 ‘国际 国际‘ ‘news_world‘]
[114 ‘证券 股票‘ ‘stock‘]
[115 ‘农业 三农‘ ‘news_agriculture‘]
[116 ‘电竞 游戏‘ ‘news_game‘]
]
g_ua = ‘Dalvik/1.6.0 (Linux; U; Android 4.4.4; MuMu Build/V417IR) NewsArticle/6.3.1 okhttp/3.7.0.2‘
g_id_cache = {}
g_count = 0
def get_data(tup):
global g_id_cache
global g_count
cid = tup[0]
cname = tup[2]
url = “http://it.snssdk.com/api/news/feed/v63/“
t = int(time.time()/10000)
t = random.randint(6*t 10*t)
querystring = {“category“:cname“concern_id“:“6215497896830175745““refer“:“1““count“:“20““max_behot_time“:t“last_refresh_sub_entrance_interval“:“1524907088““loc_mode“:“5““tt_from“:“pre_load_more““cp“:“51a5ee4f38c50q1““plugin_enable“:“0““iid“:“31047425023““device_id“:“51425358841““ac“:“wifi““channel“:“tengxun““aid“:“13““app_name“:“news_article““version_code“:“631““version_name“:“6.3.1““device_platform“:“android““ab_version“:“33311629797931749833655629582732504623909732428317098833543233209832519833644333063229705827620328621231321932861533204132935832232132753733571033388333510233482832867032400731707733430528077333567131996033398533171933645221406931643332881333968318434207253266310321519247847281298328218335998325618333327336199323429287591288418260650326188324614335477271178326588326524326532““ab_client“:“a1c4e1f2g2f7““ab_feature“:“94563102749““abflag“:“3““ssmix“:“a““device_type“:“MuMu““device_brand“:“Android““language“:“zh““os_api“:“19““os_version“:“4.4.4““uuid“:“008796762094657““openudid“:“b7215ea70ca32066““manifest_version_code“:“631““resolution“:“1280*720““dpi“:“240““update_version_code“:“6310““_rticket“:“1524907088018““plugin“:“256“}
headers = {
‘cache-control‘: “no-cache“
‘postman-token‘: “26530547-e697-1e8b-fd82-7c6014b3ee86“
‘User-Agent‘: g_ua
}
response = requests.request(“GET“ url headers=headers params=querystring)
jj = json.loads(response.text)
with open(‘toutiao_cat_data.txt‘ ‘a‘) as fp:
for item in jj[‘data‘]:
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-08-27 01:51 toutiao-text-classfication-dataset-master\
文件 4785 2018-08-27 01:51 toutiao-text-classfication-dataset-master\get_data.py
文件 2764 2018-08-27 01:51 toutiao-text-classfication-dataset-master\readme.md
文件 26912069 2018-08-27 01:51 toutiao-text-classfication-dataset-master\toutiao_cat_data.txt.zip
相关资源
- SolarWinds-Engineers-Toolset-V9
- 深度学习算法论文
- 自己写的linux ls 命令 包括 -l -R -a -U
- ls_dyan钢筋混凝土结构爆炸全套k文件
- TensorFlow Machine Learning Cookbook+无码高清
- Hands-On Machine Learning with Scikit-Learn an
- Neural Networks:Tricks of the Trade+无码高清
- prtools5.2.3工具包
- 虚拟光驱(Daemon Tools) 4.30.4 官方中文
- CMD快捷键.xlsx
- lsgcsh_9491197.zip
- OpenGL爆炸碎片化效果 源码
- 中国城市最新等级划分2019.xlsx
- 基于深度学习的图像超分辨率算法论
- UNIX Internals : The New Frontiers PDF Uresh V
- Hillstone SA系列高性能安全网关为中金
- 华为承建摩尔多瓦电信IP/MPLS骨干网
- 公司产品分类报价管理系统CPLS v2.5.
- VisualSVN7.1.2 Visual Studio 2019
- PMP第六版工具技术合集.xlsx
- 火车站信息-全.xls
- openssl 手册中文版
- Synthesis and photophysical properties of star
-
Notepad++的xm
l格式化工具xm ltools_2 - 免费开源强大的ILSpy 2.3
- Synthesis of (R)-2-trimethylsilyl-2-hydrox
-
Notepad++的xm
l Tools插件格式化xm l文 - 网络修复工具箱
-
A triphenylamine-ba
sed four-armed molecule - 中科院最新SCI分区表.xls
评论
共有 条评论