资源简介
整体框架部分参照牛客初级项目:python2.7+flaskweb+mysql,实现界面参照https://blog.csdn.net/wangyan2647/article/details/88430404

代码片段和文件信息
# -*- coding:utf-8 -*-
“““
#@file: .py
#@time: 2019/1/8 0008 15:02
“““
from __future__ import division
import io
import codecs
import math
import numpy as np
import jieba.analyse
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
def SIM_COS(s1_cut s2_cut):
word_set = set(s1_cut).union(s2_cut)
word_dict = dict()
i = 0
for word in word_set:
word_dict[word] = i
i += 1
#s1_cut_code = [word_dict[word] for word in s1_cut]
s1_cut_code = [0] * len(word_dict)
for word in s1_cut:
s1_cut_code[word_dict[word]]+=1
#s2_cut_code = [word_dict[word] for word in s2_cut]
s2_cut_code = [0] * len(word_dict)
for word in s2_cut:
s2_cut_code[word_dict[word]] += 1
sum = 0
sq1 = 0
sq2 = 0
for i in range(len(s1_cut_code)):
sum += s1_cut_code[i] * s2_cut_code[i]
sq1 += pow(s1_cut_code[i] 2)
sq2 += pow(s2_cut_code[i] 2)
try:
result = round(float(sum) / (math.sqrt(sq1) * math.sqrt(sq2)) 2)
except ZeroDivisionerror:
result = 0.0
return result
#path1:keyword path2:contents
def writePath(path1path2allline):
doc_list1 = []
doc_list2 = []
stopwords = []
for word in open(“G:/Flaskweb/flaskweb/stopwords/CH_stopWords.txt“ “r“):
stopwords.append(word.strip())
line4=[]
allline = allline.replace(‘\t‘‘‘)
line5 = allline.split(u‘。‘)
print(type(line5))
for line in line5:
if(len(line)!=0):
line4.append(line.replace(‘ ‘‘‘).replace(‘\t‘‘‘))
# print(len(line5))
# print(line4[0])
fw1 = io.open(path1 ‘w‘ encoding=‘utf-8‘)
fw2 = io.open(path2 ‘w‘ encoding=‘utf-8‘)
for q in line4:
# print(q.decode(“UTF-8“))
fw2.write(unicode(q)+‘\n‘)
# print(“This is from cosinDistance fw2 yes?“)
words = jieba.cut(q cut_all=False)
stayed_line = []
for word in words:
if word.encode(“utf-8“) not in stopwords:
stayed_line.append(word)
# keywords = jieba.analyse.extract_tags(stayed_line topK=10)
# doc_list2.append(stayed_line)
fw1.write(unicode(“ “.join(stayed_line)) + ‘\n‘)
fw1.close()
fw2.close()
return 1
def cosdistance(path1 path2 path3 allline):
doc_list1 = []
doc_list2 = []
status = writePath(path2path3allline)
if(status == 1):
# print(len(doc_list2))
fr1 = codecs.open(path1 ‘r‘ ‘utf-8‘)
for line in fr1.readlines():
# line = line.replace(‘\n‘‘‘)
line = line.strip()
if (len(line) != 0):
doc_list1.append(line.split(‘ ‘))
fr2 = codecs.open(path2 ‘r‘ ‘utf-8‘)
for line in fr2.readlines():
# line = line.replace(‘\n‘‘‘)
line = line.strip()
if (len(line) != 0):
doc_list2.app
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2019-04-01 15:00 Flaskweb\
目录 0 2019-04-01 15:00 Flaskweb\.idea\
文件 488 2018-12-21 13:05 Flaskweb\.idea\Flaskweb.iml
文件 3043 2019-04-01 15:00 Flaskweb\test20190115.py
文件 185 2018-12-21 13:05 Flaskweb\.idea\misc.xm
文件 268 2018-12-21 12:44 Flaskweb\.idea\modules.xm
文件 43774 2019-04-01 15:00 Flaskweb\.idea\workspace.xm
文件 479 2019-04-01 15:00 Flaskweb\ReName.py
文件 2391 2019-01-09 13:59 Flaskweb\content_10.txt
文件 695 2019-01-08 21:01 Flaskweb\content_20.txt
文件 6654 2019-04-01 14:59 Flaskweb\cosinDistance.py
文件 4290 2019-01-11 21:43 Flaskweb\cosinDistance.pyc
文件 36528 2019-01-14 21:46 Flaskweb\demo.docx
文件 8286 2019-04-01 15:00 Flaskweb\docxCos.py
文件 5751 2019-01-23 12:06 Flaskweb\docxCos.pyc
目录 0 2019-04-01 14:59 Flaskweb\flaskweb\
文件 1479 2019-04-01 14:59 Flaskweb\flaskweb\Sim_Cos.py
文件 1540 2019-01-08 20:21 Flaskweb\flaskweb\Sim_Cos.pyc
文件 2162 2019-04-01 14:59 Flaskweb\flaskweb\Tools.py
文件 2610 2019-01-23 11:32 Flaskweb\flaskweb\Tools.pyc
文件 462 2019-04-01 14:59 Flaskweb\flaskweb\__init__.py
文件 758 2018-12-24 16:08 Flaskweb\flaskweb\__init__.pyc
文件 223 2019-01-14 10:55 Flaskweb\flaskweb\app.conf
文件 534 2019-04-01 14:59 Flaskweb\flaskweb\doc-docx.py
文件 1518 2019-04-01 14:59 Flaskweb\flaskweb\getKeyWord.py
文件 1747 2018-12-25 15:32 Flaskweb\flaskweb\getKeyWord.pyc
文件 3756 2019-04-01 14:59 Flaskweb\flaskweb\models.py
文件 5157 2019-01-14 21:20 Flaskweb\flaskweb\models.pyc
文件 3493 2019-04-01 14:59 Flaskweb\flaskweb\simHash.py
文件 3168 2019-01-08 21:04 Flaskweb\flaskweb\simHash.pyc
目录 0 2018-12-24 21:27 Flaskweb\flaskweb\stopwords\
............此处省略25个文件信息
- 上一篇:手写体识别代码
- 下一篇:深度前馈网络python实现(需要numpy)
相关资源
- Python操作Mysql教程手册
- Django+MySql增删改查入门案例(附数据
- Django博客+pyecharts动态折线图+mysql
- python +MYSQL+HTML实现21蛋糕网上商城
- python pygame 自制飞机大战游戏(加入
- django+mysql家具购物网站,包含部署教
- mysqlclient-1.3.13-cp36-cp36m-win32.whl
- FlaskWeb开发:基于Python的Web应用开发实
- 基于hadoop的电影推荐系统源码.zip
- 书城购物开发web项目
- 模仿瓜子二手车的python网站
- ScrapyMySQL爬取链家网中北京地区租房信
- 基于协同过滤的电影推荐系统 python
- pymssql-2.1.3-cp34-cp34m-win32.whl
- FlaskWeb开发:Python基于Web应用开发实战
- scrapy整站爬取voa双语新闻并保存到m
- 学生成绩管理系统-python-tkinker.zip
- FlaskWeb开发:基于Python的Web应用开发实
- FlaskWeb开发:基于Python的Web应用开发实
- python写一个商城网页服务器并且实现
- 基于Python+mysql的新闻网站的实现
- 《FlaskWeb开发:基于Python的Web应用开发
- mysql-connector-python-2.1.3-py2.7-winx64.msi
- mysql-connector-python-2.1.5-py2.7-win32
- Python-pycharmpython36Django20mysql用户登录与
- 简单教务系统.7z
- 基于Python开发的学生信息管理系统源
- Python爬虫抓取东方财富网股票数据并
- python3导入excel数据到mysql
- Python + PyQt5 + MySQL模拟QQ的聊天与娱乐
评论
共有 条评论