• 大小: 1.25MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-10-01
  • 语言: PHP
  • 标签: 爬虫  百度云  

资源简介

源码简介 分享的是一款搜索引擎源码,百度云盘爬虫源码,Python百度云网盘搜索引擎,爬虫+网站,搜索引擎采用Xunsearch高效搜索,源码很简单,附带安装教程,可二开,这里资源邦免费分享给大家,全自动更新百度云盘内容,全自动采集哦! 适用范围 百度云网盘搜索 引擎源码,百度搜索引擎源码,网盘搜索爬虫源码 运行环境 PHP+MYSQL+Python 测试截图 安装说明 1、上传源码到网站 2、创建名为pan的数据库,编码设为utf-8。然后导入sql,完成表的创建。 3、config.php 文件修改网站标题,描述等信息 database.php 修改数据库账号,密码等信息 4、启动爬虫 进入 spider/目录,修改spider.py 中数据库信息。 __如果你是第一次部署,需运行下面命令,完成做种__ python spider.py --seed-user 上面其实就是抓取百度云热门分享用户的相关信息,然后从他们开始入手爬取数据 然后运行 python spider.py 5、安装xunsearch 目前使用__xunsearch__作为搜索引擎,后面会更换为elasticsearch。 安装过程请参考(不需要安装,PHP SDK,我已经整合到web里了) http://xunsearch.com/doc/php/guide/start.installation 此时爬虫已经开始工作了 6、索引数据 上面我们完成了爬虫的数据抓取,网站的搭建,但还不能搜索,下面开始最后一步,索引的建立。 进入 indexer/目录,在indexer.php中将$prefix,替换为你web的根路径 require '$prefix/application/helpers/xs/lib/XS.php'; 并修改数据库账号密码 然后运行 python ./index.php 到此为止程序已全部安装完毕

资源截图

代码片段和文件信息

#coding: utf8
import os
import binascii

cats = {
    u‘video‘: u‘视频‘
    u‘image‘: u‘图片‘
    u‘document‘: u‘书籍‘
    u‘music‘: u‘音乐‘
    u‘package‘: u‘压缩‘
    u‘software‘: u‘软件‘
}

def get_label(name):
    if name in cats:
        return cats[name]
    return u‘其它‘

def get_label_by_crc32(n):
    for k in cats:
        if binascii.crc32(k)&0xFFFFFFFFL == n:
            return k
    return u‘other‘

def get_extension(name):
    return os.path.splitext(name)[1]

def get_category(ext):
    ext = ext + ‘.‘
    cats = {
        u‘video‘: ‘.avi.mp4.rmvb.m2ts.wmv.mkv.flv.qmv.rm.mov.vob.asf.3gp.mpg.mpeg.m4v.f4v.‘
        u‘image‘: ‘.jpg.bmp.jpeg.png.gif.tiff.‘
        u‘document‘: ‘.pdf.isz.chm.txt.epub.bc!.doc.docx.xlsx.xls.pptx.ppt.‘
        u‘music‘: ‘.mp3.wma.ape.wav.dts.mdf.flac.‘
        u‘package‘: ‘.zip.rar.7z.tar.gz.iso.dmg.pkg.‘
        u‘software‘: ‘.exe.app.msi.apk.‘
        u‘torrent‘: ‘.torrent.‘
    }
    for k v in cats.iteritems():
        if ext in v:
            return k
    return u‘other‘

def get_detail(y):
    if y.get(‘files‘):
        y[‘files‘] = [z for z in y[‘files‘] if not z[‘path‘].startswith(‘_‘)]
    else:
        y[‘files‘] = [{‘path‘: y[‘name‘] ‘length‘: y[‘length‘]}]
    y[‘files‘].sort(key=lambda z:z[‘length‘] reverse=True)
    bigfname = y[‘files‘][0][‘path‘]
    ext = get_extension(bigfname).lower()
    y[‘category‘] = get_category(ext)
    y[‘extension‘] = ext



 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2017-05-07 10:27  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\
     文件        2638  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\How-to-Install.md
     文件        1182  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\README.md
     文件        4286  2017-01-08 13:33  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\favicon.ico
     目录           0  2017-05-07 10:26  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\indexer\
     文件        2760  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\indexer\indexer.php
     文件        6744  2017-03-22 09:53  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\logo.png
     文件       23384  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\screenshot1.png
     文件       37678  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\screenshot2.png
     目录           0  2017-05-07 10:26  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\spider\
     文件        1459  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\spider\metautils.py
     文件       15788  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\spider\spider.py
     目录           0  2017-05-07 10:26  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\sql\
     文件        3929  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\sql\pan.sql
     目录           0  2017-05-07 10:26  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\
     文件         127  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\.htaccess
     目录           0  2017-05-07 10:26  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\
     文件         123  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\.htaccess
     目录           0  2017-05-07 10:26  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\cache\
     文件         123  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\cache\.htaccess
     文件         131  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\cache\index.html
     目录           0  2017-05-07 10:26  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\config\
     文件        3903  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\config\autoload.php
     文件       18569  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\config\config.php
     文件        4322  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\config\constants.php
     文件        4521  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\config\database.php
     文件        2441  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\config\doctypes.php
     文件        2993  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\config\foreign_chars.php
     文件         416  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\config\hooks.php
     文件         131  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\config\index.html
     文件         497  2016-10-11 16:51  最新百度云网盘搜索引擎源码附带Python爬虫+PHP网站+Xunsearch搜索引擎@www.ewuxiu.com分享\web\application\config\memcached.php
............此处省略369个文件信息

评论

共有 条评论