• 大小: 0.17M
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2021-03-27
  • 语言: 其他
  • 标签: 其他  

资源简介


PageRank分值计算 Python爬虫 数据挖掘实验 华南理工大学

资源截图

代码片段和文件信息

# -*- coding:utf-8 -*-

import urllib
import urllib2
import re
from bs4 import BeautifulSoup
import random
import time


class soider1:
    def __init__(self):
        self.siteURL = ‘http://blog.csdn.net/v_july_v/article/list/‘
        self.URLHEAD = ‘http://blog.csdn.net‘
        self.cnt = 0
        self.Max_search = 0

        self.url_map_num = {}  # each url reflect a integerA
        self.url_map_num_array = {}  # each integerA reflect map_indexB
        # self.url_map_array = []  # interact url‘integer  and indexB map

    def getPage(self url_tail):
        url = self.URLHEAD + str(url_tail)
        self.Max_search += 1

        user_agents = [
            ‘Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11‘
            ‘Opera/9.25 (Windows NT 5.1; U; en)‘
            ‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)‘
            ‘Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件      68618  2016-05-22 18:51  代码及相应文件\all_keys.txt

     文件     105111  2016-05-22 18:51  代码及相应文件\all_keys_url.txt

     文件       7350  2016-05-22 18:55  代码及相应文件\csdnspider.py

     文件     994071  2016-05-22 18:51  代码及相应文件\iterator.txt

     文件     233984  2016-05-22 19:17  实验 骆明楠 201330551358.doc

     目录          0  2016-05-22 19:19  代码及相应文件

----------- ---------  ---------- -----  ----

              1409134                    6


评论

共有 条评论