资源简介
本资源为天津大学社会信息检索的一项大作业,基于爬取的语料库,总体实现了三个功能:TFIDF计算,两句子相似度计算,基于语料库的搜索引擎。
具体任务如下:
1) TFIDF: 给定用自己名字命名的文件夹,请自己爬取一定数量的网页、微博形成语料集合,存入该文件夹;在线状态下,对其中的词语进行TFIDF统计。
2) SIM: 在线状态下,从网页页面输入任意两个句子,求其相似度,包括:内积,余弦及Jaccard三种度量方式;同时,可实现对导入的文件夹语料的tfidf统计。
3)SJet:实现基于向量空间模型(VSM)的搜索引擎。
代码片段和文件信息
#-*- coding=utf-8 -*-
from flask import Flaskrender_templaterequestredirecturl_forjsonifysend_from_directoryabort
from werkzeug.utils import secure_filename
import os
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
app = Flask(__name__)
@app.route(‘/‘)
def home():
return render_template(‘index.html‘)
@app.route(‘/TFIDF‘ methods=[‘GET‘ ‘POST‘])
def upload_file():
if request.method==‘GET‘:
return render_template(‘TFIDF.html‘)
else:
f = request.files[‘data‘]
tempdir = ‘uploads/‘ + secure_filename(f.filename)
f.save(tempdir)
#os.system(“activate python2.7“)
os.system(“python Get_TFIDF.py “ + tempdir)
return render_template(‘TFIDF.html‘)+‘
提交成功!‘
@app.route(‘/TFIDF_Result‘ methods=[‘GET‘])
def download_file():
if request.method==‘GET‘:
dfilename=“allresults.zip“
if os.path.isfile(dfilename):
return send_from_directory(‘‘dfilenameas_attachment=True)
abort(404)
@app.route(‘/SIM‘ methods=[‘GET‘ ‘POST‘])
def input_sentence():
if request.method==‘GET‘:
return render_template(‘SIM.html‘)
else:
s1 = request.form.get(“sentence1“).encode(‘gbk‘)
s2 = request.form.get(“sentence2“).encode(‘gbk‘)
#os.system(“activate python2.7“)
#os.system(‘python Similarity_Compare.py ‘ + s1 + ‘ ‘ + s2)
simcmd = os.popen(‘python Similarity_Compare.py ‘ + s1 + ‘ ‘ + s2)
simres = simcmd.read()
return render_template(‘SIM.html‘)+‘计算结果
‘+simres+‘
‘
@app.route(‘/SJet‘ methods=[‘GET‘ ‘POST‘])
def mySJet():
if request.method==‘GET‘:
return render_template(‘SJet.html‘)
else:
myinput = request.form.get(“userinput“).encode(‘gbk‘)
#os.system(“activate python2.7“)
#os.system(‘python Similarity_Compare.py ‘ + s1 + ‘ ‘ + s2)
simcmd1 = os.popen(“python SJet.py ‘“ + myinput + “‘“)
simres1 = simcmd1.read()
return render_template(‘SJet.html‘)+‘搜索结果
‘+simres1
@app.route(‘/SJetRes/‘ methods=[‘GET‘])
def show_res(post_id):
if request.method==‘GET‘:
dfilename1=“database/articles/article“+str(post_id)+“.txt“
if os.path.isfile(dfilename1):
return send_from_directory(‘‘dfilename1as_attachment=True)
abort(404)
if __name__ == ‘__main__‘:
app.run(host=‘0.0.0.0‘port=‘6789‘)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-06-12 02:03 SIRC\
文件 2440 2018-06-12 01:01 SIRC\Get_TFIDF.py
文件 55 2018-05-21 13:07 SIRC\SIMresult.txt
文件 2447 2018-06-12 01:40 SIRC\SJet.py
文件 2143 2018-05-21 01:34 SIRC\Similarity_Compare.py
文件 238095 2018-05-21 09:59 SIRC\allresults.zip
文件 2302 2018-06-12 01:28 SIRC\app.py
文件 2027 2018-05-20 23:58 SIRC\app.pyc
目录 0 2018-05-08 14:18 SIRC\databa
目录 0 2018-05-08 21:17 SIRC\databa
文件 12 2018-05-08 14:15 SIRC\databa
文件 160 2018-05-08 14:15 SIRC\databa
文件 106 2018-05-08 14:15 SIRC\databa
文件 104 2018-05-08 14:15 SIRC\databa
文件 365 2018-05-08 14:15 SIRC\databa
文件 417 2018-05-08 14:15 SIRC\databa
文件 148 2018-05-08 14:15 SIRC\databa
文件 84 2018-05-08 14:15 SIRC\databa
文件 284 2018-05-08 14:15 SIRC\databa
文件 403 2018-05-08 14:15 SIRC\databa
文件 83 2018-05-08 14:15 SIRC\databa
文件 130 2018-05-08 14:15 SIRC\databa
文件 189 2018-05-08 14:15 SIRC\databa
文件 86 2018-05-08 14:15 SIRC\databa
文件 91 2018-05-08 14:15 SIRC\databa
文件 431 2018-05-08 14:15 SIRC\databa
文件 119 2018-05-08 14:15 SIRC\databa
文件 439 2018-05-08 14:15 SIRC\databa
文件 383 2018-05-08 14:15 SIRC\databa
文件 162 2018-05-08 14:15 SIRC\databa
文件 415 2018-05-08 14:15 SIRC\databa
............此处省略2257个文件信息
相关资源
- 天津大学并行计算一二次实验报告
- 天津大学计算机考研复试攻略.pdf
- TFIDF算法实现
- 天津大学_数据库原理_本科生_期末试
- 天津大学精仪学院测控电路PPT
- 天津大学编译原理往年真题
- 天津大学计算机网络复习总结
- 天津大学课程设计--数字脉搏计
- 天津大学数据库笔记
- 并行计算多线程求π以及矩阵转置
- 天津大学计算机组成原理课件实验复
- 天津大学数据结构全部上机代码
- 《工程数学基础教程》作者: 天津大学
- 天津大学并行计算
- 天津大学 计算机 考研复试题
- 2010注册电气工程师公共基础考试复习
- 天津大学计算机考研面试复试算法专
- 天津大学考研面试算法专题很全面
- 天津大学-计算机图形学-复习资料.r
- 天津大学的插补算法与运动控制
- 2018年天津大学媒体计算课程大作业
- 天津大学人工智能往年真题.zip
- 天津大学数据库应用原理课程往年卷
- 天津大学操作系统课程资料.zip
- 天津大学编译原理资料.zip
- 天津大学人工智能往年卷
- 天津大学计算机学院并行计算mpi矩阵
- 天津大学概率论与数理统计习题解答
- 天津大学《并行计算》实验指南
- 天津大学数字图像处理试题及解答0
评论
共有 条评论