• 大小: 0.16M
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-03-28
  • 语言: 其他
  • 标签: 其他  

资源简介


实现功能:1、抓取知乎上关注人数超过2000人数的话题、相应连接、父子话题,并存入数据库。 2、抓取某一话题的回答,可以设置赞的最低数才会被抓取,并存入数据库。 3、将感兴趣的内容获取出来发送qq邮件。

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-

import datetimetime
import codecs
import smtplib
from email.mime.text import MIMEText
from email.mime.image import MIMEImage
from email.mime.multipart import MIMEMultipart
from email.mime.application import MIMEApplication  

import MySQLdb

from zhihu.spiders.zhihu_spider import *

def zan_cmp(a b):
return -cmp(a[1] b[1])

class GetInteresting:
def __init__(self):
self.conn = MySQLdb.connect(
host=‘localhost‘
user = ‘root‘
passwd = ‘‘
port = 3306)
self.cur = self.conn.cursor()
self.conn.select_db(‘zhihu‘)
self.receiver = ZhihuSpider.my_parse.receiver

def read_answer(self lst):
order = 1
l = len(lst)
file_name = ‘%s.txt‘ % ZhihuSpider.my_parse.topic
f = codecs.open(file_name ‘w‘)
msg = MIMEMultipart(“related“)

body = ‘‘
for answer in lst:
f.write(‘%s个赞\n‘ % answer[1])
f.write(‘时间%s\n‘ % time.strftime(‘%Y-%m-%d %H:%M:%S‘ time.gmtime(answer[2])))
f.write(‘%s%s‘ % (

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2015-07-07 21:21  zhihu\
     文件         252  2015-06-22 19:02  zhihu\scrapy.cfg
     目录           0  2015-07-07 21:21  zhihu\zhihu\
     文件         123  2015-07-07 21:21  zhihu\zhihu\config.ini
     文件        3630  2015-07-07 21:18  zhihu\zhihu\getInteresting.py
     文件        4476  2015-07-07 21:03  zhihu\zhihu\getInteresting.pyc
     文件         486  2015-06-23 22:14  zhihu\zhihu\items.py
     文件         502  2015-06-23 22:39  zhihu\zhihu\items.pyc
     文件        2711  2015-07-07 21:02  zhihu\zhihu\pipelines.py
     文件        2655  2015-07-07 21:03  zhihu\zhihu\pipelines.pyc
     文件         817  2015-06-22 20:50  zhihu\zhihu\settings.py
     文件         598  2015-06-22 20:50  zhihu\zhihu\settings.pyc
     目录           0  2015-07-07 21:21  zhihu\zhihu\spiders\
     文件        3307  2015-06-23 21:07  zhihu\zhihu\spiders\rotate_useragent.py
     文件        3255  2015-06-23 21:08  zhihu\zhihu\spiders\rotate_useragent.pyc
     文件        1756  2015-07-07 21:03  zhihu\zhihu\spiders\zhihu_spider.py
     文件        2114  2015-07-07 21:03  zhihu\zhihu\spiders\zhihu_spider.pyc
     文件         161  2015-06-17 16:03  zhihu\zhihu\spiders\__init__.py
     文件         143  2015-06-22 19:13  zhihu\zhihu\spiders\__init__.pyc
     文件        1598  2015-07-04 15:34  zhihu\zhihu\util.py
     文件        1856  2015-07-04 15:34  zhihu\zhihu\util.pyc
     文件           0  2015-06-17 16:03  zhihu\zhihu\__init__.py
     文件         135  2015-06-22 19:13  zhihu\zhihu\__init__.pyc
     文件         200  2015-07-07 21:10  zhihu\zhihu\互联网行业招聘.txt
     目录           0  2015-07-07 21:22  zhihu_topic\
     文件        1076  2015-07-07 21:22  zhihu_topic\getInteresting.py
     文件         264  2015-06-30 20:26  zhihu_topic\scrapy.cfg
     文件      530337  2015-07-04 15:27  zhihu_topic\topic.txt
     目录           0  2015-07-07 21:21  zhihu_topic\zhihu_topic\
     文件         432  2015-06-30 20:46  zhihu_topic\zhihu_topic\items.py
     文件         544  2015-06-30 20:52  zhihu_topic\zhihu_topic\items.pyc
............此处省略13个文件信息

评论

共有 条评论