知乎爬虫

大小: 1.19M

文件类型: .zip

金币: 1

下载: 0 次

发布日期: 2021-04-15
语言: Python
标签: 爬虫 知乎爬虫 知乎 theneac

高速下载

资源简介

简单的知乎爬虫，输入关键词，爬取该关键词下的提问，回答，点赞数等，以csv格式存储

资源截图

小图大图

代码片段和文件信息

#
# import requests
# import csv
# from lxml import etree
# from pyquery import PyQuery as pq
#
# user_agent = ‘Mozilla/5.0 （Windows NT 10.0; Win64; x64） AppleWebKit/537.36 （KHTML like Gecko） ‘ \
#              ‘Chrome/66.0.3359.181 Safari/537.36 ‘
# headers = {‘User-Agent‘: user_agent}
# ques = input（‘请输入问题:‘）
# url = ‘https://www.zhihu.com/search?type=content&q=‘ + str（ques）
# r = requests.get（url headers=headers）
#
# doc = pq（r.text）
# print（doc）
# # b = doc.find（‘h2‘）.text（）
# #
# # file = open（‘explore.txt‘ ‘w+‘ encoding=‘utf-8‘）
# # file.write（‘\n‘.join（[r.text]））
# # # file.write（‘\n‘ + ‘=‘ * 50 + ‘\n‘）
# # file.close（）
#
# items = doc（‘.Search-container .AnswerItem‘）.items（）
# # items = doc（‘.Search-container‘）.items（）
# rows = []
# header = [‘问题‘ ‘作者‘ ‘网址‘]
# with open（‘zhihu.csv‘‘w+‘） as f:
#     f_csv = csv.writer（f ）
#     f_csv.writerow（header）
# for item in items:
#     # answer=item.find（‘meta‘）
#     # a = answer.attr.content
#     # a = a.text（）
#     # print（a）
#     # print（answer）
#
#     question = item.find（‘h2‘）.text（）
#     author = item.find（‘b‘）.text（）
#     a = item.find（‘meta‘）
#     answer = a.attr.content
#     print（‘\n问题‘ question）
#     print（‘\n作者‘ author）
#     print（‘\n网址‘ answer）
#
#     content = （question author answer）
#     rows.append（content）
# with open（‘zhihu.csv‘‘a‘） as f:
#     f_csv = csv.writer（f）
#     f_csv.writerows（rows）
#
#     # with open（‘explore.txt‘ ‘a‘ encoding=‘utf-8‘） as file:
#     #     file.write（‘\n‘.join（[question author answer]））
#     #     file.write（‘\n‘ + ‘=‘ * 50 + ‘\n‘）
#
# # items = doc（‘.list‘）
# # # print（type（items））
# # # print（items）
# # lis = items.find（‘li‘）
# # print（type（lis））
# # print（lis）
# #
# # file = open（‘explore.txt‘ ‘w+‘ encoding=‘utf-8‘）
# # file.write（‘\n‘.join（[r]））
# # # file.write（‘\n‘ + ‘=‘ * 50 + ‘\n‘）
# # file.close（）
#
#
# if one_info is not None:
#     for data in one_info:
#         new_url = one_info[‘url‘]
#         r = requests.get（new_url headers=self.headers）
#         # print（r.text）
#         doc = pq（r.text）
#         # print（doc）
#
#         items = doc（‘.Search-container .AnswerItem‘）.items（）
#
#         for item in items:
#             question = item.find（‘h2‘）.text（）
#             author = item.find（‘b‘）.text（）
#             a = item.find（‘meta‘）
#             answer = a.attr.content
#             print（‘\n问题‘ question）
#             print（‘\n作者‘ author）
#             print（‘\n网址‘ answer）

from lxml import etree
import requests
from pyquery import PyQuery as pq
user_agent = ‘Mozilla/5.0 （Windows NT 10.0; Win64; x64） AppleWebKit/537.36 （KHTML like Gecko） ‘ \
             ‘Chrome/66.0.3359.181 Safari/537.36 ‘
headers = {‘User-Agent‘: user_agent}

url = ‘http://www.zhihu.com/question/23119500/log‘
r = requests.get（url headers=headers）
doc = pq（r.text）
print（doc）
items = doc（‘.zu-main-content .zm-item‘）.items（）  #提

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2020-04-13 11:58  知乎爬虫\
     文件          30  2019-08-11 16:09  知乎爬虫\.gitattributes
     文件          62  2019-08-11 16:09  知乎爬虫\.gitignore
     目录           0  2020-04-13 11:58  知乎爬虫\.idea\
     文件         185  2019-12-30 14:38  知乎爬虫\.idea\encodings.xml
     目录           0  2020-04-13 11:58  知乎爬虫\.idea\inspectionProfiles\
     文件         174  2019-12-26 19:41  知乎爬虫\.idea\inspectionProfiles\profiles_settings.xml
     文件         298  2019-12-30 19:27  知乎爬虫\.idea\misc.xml
     文件         295  2019-12-26 19:41  知乎爬虫\.idea\modules.xml
     文件        5179  2020-01-06 17:13  知乎爬虫\.idea\workspace.xml
     文件         478  2019-12-26 19:41  知乎爬虫\.idea\zhihu-login-master.iml
     文件        3150  2020-01-05 18:02  知乎爬虫\HtmlDownloader.py
     文件        1064  2019-08-11 16:09  知乎爬虫\LICENSE
     目录           0  2020-04-13 11:58  知乎爬虫\__pycache__\
     文件        6594  2020-01-05 18:58  知乎爬虫\__pycache__\zhihu_login.cpython-37.pyc
     文件        3603  2019-12-26 20:46  知乎爬虫\captcha.jpg
     文件         906  2020-01-05 18:11  知乎爬虫\cookies.txt
     目录           0  2020-04-13 11:58  知乎爬虫\docs\
     文件       51393  2019-08-11 16:09  知乎爬虫\docs\0.jpg
     文件       61527  2019-08-11 16:09  知乎爬虫\docs\1.jpg
     文件      366922  2019-08-11 16:09  知乎爬虫\docs\2.jpg
     文件      192250  2019-08-11 16:09  知乎爬虫\docs\3.jpg
     文件       12253  2019-08-11 16:09  知乎爬虫\docs\4.jpg
     文件       13618  2019-08-11 16:09  知乎爬虫\docs\5.jpg
     文件      173591  2019-08-11 16:09  知乎爬虫\docs\6.jpg
     文件      232144  2019-08-11 16:09  知乎爬虫\docs\7.jpg
     文件       46482  2019-08-11 16:09  知乎爬虫\docs\wx.jpg
     文件       10355  2019-08-11 16:09  知乎爬虫\encrypt.js
     文件      203327  2019-12-30 21:03  知乎爬虫\explore.txt
     文件          93  2019-12-30 22:25  知乎爬虫\requirements.txt
     文件        4878  2020-01-06 18:16  知乎爬虫\spider.py
............此处省略4个文件信息

上一篇：OpenCV动作识别
下一篇：DataMiningProject-Bearing 用于轴承大数据的故障诊断和数据挖掘

共有条评论

知乎爬虫

资源简介

资源截图

代码片段和文件信息

评论

相关资源