资源简介
简单的知乎爬虫,输入关键词,爬取该关键词下的提问,回答,点赞数等,以csv格式存储
代码片段和文件信息
#
# import requests
# import csv
# from lxml import etree
# from pyquery import PyQuery as pq
#
# user_agent = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) ‘ \
# ‘Chrome/66.0.3359.181 Safari/537.36 ‘
# headers = {‘User-Agent‘: user_agent}
# ques = input(‘请输入问题:‘)
# url = ‘https://www.zhihu.com/search?type=content&q=‘ + str(ques)
# r = requests.get(url headers=headers)
#
# doc = pq(r.text)
# print(doc)
# # b = doc.find(‘h2‘).text()
# #
# # file = open(‘explore.txt‘ ‘w+‘ encoding=‘utf-8‘)
# # file.write(‘\n‘.join([r.text]))
# # # file.write(‘\n‘ + ‘=‘ * 50 + ‘\n‘)
# # file.close()
#
# items = doc(‘.Search-container .AnswerItem‘).items()
# # items = doc(‘.Search-container‘).items()
# rows = []
# header = [‘问题‘ ‘作者‘ ‘网址‘]
# with open(‘zhihu.csv‘‘w+‘) as f:
# f_csv = csv.writer(f )
# f_csv.writerow(header)
# for item in items:
# # answer=item.find(‘meta‘)
# # a = answer.attr.content
# # a = a.text()
# # print(a)
# # print(answer)
#
# question = item.find(‘h2‘).text()
# author = item.find(‘b‘).text()
# a = item.find(‘meta‘)
# answer = a.attr.content
# print(‘\n问题‘ question)
# print(‘\n作者‘ author)
# print(‘\n网址‘ answer)
#
# content = (question author answer)
# rows.append(content)
# with open(‘zhihu.csv‘‘a‘) as f:
# f_csv = csv.writer(f)
# f_csv.writerows(rows)
#
# # with open(‘explore.txt‘ ‘a‘ encoding=‘utf-8‘) as file:
# # file.write(‘\n‘.join([question author answer]))
# # file.write(‘\n‘ + ‘=‘ * 50 + ‘\n‘)
#
# # items = doc(‘.list‘)
# # # print(type(items))
# # # print(items)
# # lis = items.find(‘li‘)
# # print(type(lis))
# # print(lis)
# #
# # file = open(‘explore.txt‘ ‘w+‘ encoding=‘utf-8‘)
# # file.write(‘\n‘.join([r]))
# # # file.write(‘\n‘ + ‘=‘ * 50 + ‘\n‘)
# # file.close()
#
#
# if one_info is not None:
# for data in one_info:
# new_url = one_info[‘url‘]
# r = requests.get(new_url headers=self.headers)
# # print(r.text)
# doc = pq(r.text)
# # print(doc)
#
# items = doc(‘.Search-container .AnswerItem‘).items()
#
# for item in items:
# question = item.find(‘h2‘).text()
# author = item.find(‘b‘).text()
# a = item.find(‘meta‘)
# answer = a.attr.content
# print(‘\n问题‘ question)
# print(‘\n作者‘ author)
# print(‘\n网址‘ answer)
from lxml import etree
import requests
from pyquery import PyQuery as pq
user_agent = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) ‘ \
‘Chrome/66.0.3359.181 Safari/537.36 ‘
headers = {‘User-Agent‘: user_agent}
url = ‘http://www.zhihu.com/question/23119500/log‘
r = requests.get(url headers=headers)
doc = pq(r.text)
print(doc)
items = doc(‘.zu-main-content .zm-item‘).items() #提
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2020-04-13 11:58 知乎爬虫\
文件 30 2019-08-11 16:09 知乎爬虫\.gitattributes
文件 62 2019-08-11 16:09 知乎爬虫\.gitignore
目录 0 2020-04-13 11:58 知乎爬虫\.idea\
文件 185 2019-12-30 14:38 知乎爬虫\.idea\encodings.xm
目录 0 2020-04-13 11:58 知乎爬虫\.idea\inspectionProfiles\
文件 174 2019-12-26 19:41 知乎爬虫\.idea\inspectionProfiles\profiles_settings.xm
文件 298 2019-12-30 19:27 知乎爬虫\.idea\misc.xm
文件 295 2019-12-26 19:41 知乎爬虫\.idea\modules.xm
文件 5179 2020-01-06 17:13 知乎爬虫\.idea\workspace.xm
文件 478 2019-12-26 19:41 知乎爬虫\.idea\zhihu-login-master.iml
文件 3150 2020-01-05 18:02 知乎爬虫\HtmlDownloader.py
文件 1064 2019-08-11 16:09 知乎爬虫\LICENSE
目录 0 2020-04-13 11:58 知乎爬虫\__pycache__\
文件 6594 2020-01-05 18:58 知乎爬虫\__pycache__\zhihu_login.cpython-37.pyc
文件 3603 2019-12-26 20:46 知乎爬虫\captcha.jpg
文件 906 2020-01-05 18:11 知乎爬虫\cookies.txt
目录 0 2020-04-13 11:58 知乎爬虫\docs\
文件 51393 2019-08-11 16:09 知乎爬虫\docs\0.jpg
文件 61527 2019-08-11 16:09 知乎爬虫\docs\1.jpg
文件 366922 2019-08-11 16:09 知乎爬虫\docs\2.jpg
文件 192250 2019-08-11 16:09 知乎爬虫\docs\3.jpg
文件 12253 2019-08-11 16:09 知乎爬虫\docs\4.jpg
文件 13618 2019-08-11 16:09 知乎爬虫\docs\5.jpg
文件 173591 2019-08-11 16:09 知乎爬虫\docs\6.jpg
文件 232144 2019-08-11 16:09 知乎爬虫\docs\7.jpg
文件 46482 2019-08-11 16:09 知乎爬虫\docs\wx.jpg
文件 10355 2019-08-11 16:09 知乎爬虫\encrypt.js
文件 203327 2019-12-30 21:03 知乎爬虫\explore.txt
文件 93 2019-12-30 22:25 知乎爬虫\requirements.txt
文件 4878 2020-01-06 18:16 知乎爬虫\spider.py
............此处省略4个文件信息
相关资源
- python端口扫描器图形化界面.zip
- Web Scraping with Python 爬虫2015 高清.pdf版
- python爬取百度搜索新闻,并自动生成
- python网络爬虫视频教学国家精品课程
- Python爬取知乎回答中的文本及图片
- python 爬虫从入门到实战
- python爬虫数据可视化分析大作业.zip
- 中关村手机爬虫
- python 抓取1688店铺产品详情爬虫
- 毕业论文完整版基于python的数据采集
- python爬虫--爬取youtobe红人信息
- 利用python3爬虫爬取全国天气数据并保
- python简单爬虫抓取网页内容
- python 爬虫源码
- 81个Python爬虫源代码
- python爬虫程序python3.6版本
- 崔庆才_Python3爬虫入门到精通课程视频
- 嵩天老师的课程:Python数据分析与展
- python爬虫项目.zip
- Python爬虫教程+游戏+框架全套源码课件
- 微博关键词爬取.py
- 小说网站源码-Python-Django-boostrap
- 全套视频课程:知乎大神萧井陌 Pyt
- python爬虫爬取股票评论,调用百度A
- 2018年统计用区划代码和城乡划分代码
- 智联招聘爬虫,破解md5加密反扒,2
- Python爬虫抓取双色球开奖数据保存为
- 利用Python爬取百度百科词条
- 基于Python、Mysql、Ajax、Neo4j的百度百科
- neo4j+python知识图谱构建(基于豆瓣)
评论
共有 条评论