资源简介
整体框架部分参照牛客初级项目:python2.7+flaskweb+mysql,实现界面参照https://blog.csdn.net/wangyan2647/article/details/88430404
代码片段和文件信息
# -*- coding:utf-8 -*-
“““
#@file: .py
#@time: 2019/1/8 0008 15:02
“““
from __future__ import division
import io
import codecs
import math
import numpy as np
import jieba.analyse
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
def SIM_COS(s1_cut s2_cut):
word_set = set(s1_cut).union(s2_cut)
word_dict = dict()
i = 0
for word in word_set:
word_dict[word] = i
i += 1
#s1_cut_code = [word_dict[word] for word in s1_cut]
s1_cut_code = [0] * len(word_dict)
for word in s1_cut:
s1_cut_code[word_dict[word]]+=1
#s2_cut_code = [word_dict[word] for word in s2_cut]
s2_cut_code = [0] * len(word_dict)
for word in s2_cut:
s2_cut_code[word_dict[word]] += 1
sum = 0
sq1 = 0
sq2 = 0
for i in range(len(s1_cut_code)):
sum += s1_cut_code[i] * s2_cut_code[i]
sq1 += pow(s1_cut_code[i] 2)
sq2 += pow(s2_cut_code[i] 2)
try:
result = round(float(sum) / (math.sqrt(sq1) * math.sqrt(sq2)) 2)
except ZeroDivisionerror:
result = 0.0
return result
#path1:keyword path2:contents
def writePath(path1path2allline):
doc_list1 = []
doc_list2 = []
stopwords = []
for word in open(“G:/Flaskweb/flaskweb/stopwords/CH_stopWords.txt“ “r“):
stopwords.append(word.strip())
line4=[]
allline = allline.replace(‘\t‘‘‘)
line5 = allline.split(u‘。‘)
print(type(line5))
for line in line5:
if(len(line)!=0):
line4.append(line.replace(‘ ‘‘‘).replace(‘\t‘‘‘))
# print(len(line5))
# print(line4[0])
fw1 = io.open(path1 ‘w‘ encoding=‘utf-8‘)
fw2 = io.open(path2 ‘w‘ encoding=‘utf-8‘)
for q in line4:
# print(q.decode(“UTF-8“))
fw2.write(unicode(q)+‘\n‘)
# print(“This is from cosinDistance fw2 yes?“)
words = jieba.cut(q cut_all=False)
stayed_line = []
for word in words:
if word.encode(“utf-8“) not in stopwords:
stayed_line.append(word)
# keywords = jieba.analyse.extract_tags(stayed_line topK=10)
# doc_list2.append(stayed_line)
fw1.write(unicode(“ “.join(stayed_line)) + ‘\n‘)
fw1.close()
fw2.close()
return 1
def cosdistance(path1 path2 path3 allline):
doc_list1 = []
doc_list2 = []
status = writePath(path2path3allline)
if(status == 1):
# print(len(doc_list2))
fr1 = codecs.open(path1 ‘r‘ ‘utf-8‘)
for line in fr1.readlines():
# line = line.replace(‘\n‘‘‘)
line = line.strip()
if (len(line) != 0):
doc_list1.append(line.split(‘ ‘))
fr2 = codecs.open(path2 ‘r‘ ‘utf-8‘)
for line in fr2.readlines():
# line = line.replace(‘\n‘‘‘)
line = line.strip()
if (len(line) != 0):
doc_list2.app
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2019-04-01 15:00 Flaskweb\
目录 0 2019-04-01 15:00 Flaskweb\.idea\
文件 488 2018-12-21 13:05 Flaskweb\.idea\Flaskweb.iml
文件 3043 2019-04-01 15:00 Flaskweb\test20190115.py
文件 185 2018-12-21 13:05 Flaskweb\.idea\misc.xm
文件 268 2018-12-21 12:44 Flaskweb\.idea\modules.xm
文件 43774 2019-04-01 15:00 Flaskweb\.idea\workspace.xm
文件 479 2019-04-01 15:00 Flaskweb\ReName.py
文件 2391 2019-01-09 13:59 Flaskweb\content_10.txt
文件 695 2019-01-08 21:01 Flaskweb\content_20.txt
文件 6654 2019-04-01 14:59 Flaskweb\cosinDistance.py
文件 4290 2019-01-11 21:43 Flaskweb\cosinDistance.pyc
文件 36528 2019-01-14 21:46 Flaskweb\demo.docx
文件 8286 2019-04-01 15:00 Flaskweb\docxCos.py
文件 5751 2019-01-23 12:06 Flaskweb\docxCos.pyc
目录 0 2019-04-01 14:59 Flaskweb\flaskweb\
文件 1479 2019-04-01 14:59 Flaskweb\flaskweb\Sim_Cos.py
文件 1540 2019-01-08 20:21 Flaskweb\flaskweb\Sim_Cos.pyc
文件 2162 2019-04-01 14:59 Flaskweb\flaskweb\Tools.py
文件 2610 2019-01-23 11:32 Flaskweb\flaskweb\Tools.pyc
文件 462 2019-04-01 14:59 Flaskweb\flaskweb\__init__.py
文件 758 2018-12-24 16:08 Flaskweb\flaskweb\__init__.pyc
文件 223 2019-01-14 10:55 Flaskweb\flaskweb\app.conf
文件 534 2019-04-01 14:59 Flaskweb\flaskweb\doc-docx.py
文件 1518 2019-04-01 14:59 Flaskweb\flaskweb\getKeyWord.py
文件 1747 2018-12-25 15:32 Flaskweb\flaskweb\getKeyWord.pyc
文件 3756 2019-04-01 14:59 Flaskweb\flaskweb\models.py
文件 5157 2019-01-14 21:20 Flaskweb\flaskweb\models.pyc
文件 3493 2019-04-01 14:59 Flaskweb\flaskweb\simHash.py
文件 3168 2019-01-08 21:04 Flaskweb\flaskweb\simHash.pyc
目录 0 2018-12-24 21:27 Flaskweb\flaskweb\stopwords\
............此处省略25个文件信息
- 上一篇:手写体识别代码
- 下一篇:深度前馈网络python实现(需要numpy)
相关资源
- MySQL-python-1.2.5.win-amd64-py2.7
- Python爬取论文标题、作者、摘要等信
- backup.sh.py
- 利用selenium对拉勾网的爬虫并将数据导
- python+django+mysql web开发 入门图书管理
- 利用python的scrapy爬取慕课网全站课程
- python3 网络爬虫 多线程 无限爬网址
- 使用python实现MySQL作为数据存储的登陆
- get_wuyou.zip
- Python操作MySQL数据进行图片存取操作
- mysqldb64位
- 爬虫源码:分页爬取,mysql数据库连接
- python爬取微博热搜并直接写入mysql.r
- 基于python+mysql的图书管理系统,有g
- python实现图书借阅系统
- 利用selenium编写的python网络爬虫-淘宝
- 个人博客网站源码python3.6+django2.0+my
- 教务管理系统
- Python+Django+MySQL实现基于Web版的增删改
- 1.2.5的windows python-mysqlpip安装,MySQL_
- insert_test_data.py
- 爬取某块区域的实时交通态势数据,
- python+MySQL+bootstrap+ajax项目
- django项目源码-入门级博客项目源码
- Python操作Mysql教程手册高清完整PDF版
- python mysql 简单银行存取款转账系统
- Python安装MySQL安装包 64位 py2.7 [exe文件
- MySQL数据库工具MySQL-python-1.2.3.win-amd
- 基于python3.6、Django 、MySQL的商城项目
- MySQL-python-1.2.5.win-amd64-py2.7.exe
评论
共有 条评论