• 大小: 104KB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-06-16
  • 语言: Python
  • 标签: flaskw  mysql  copyde  

资源简介

整体框架部分参照牛客初级项目:python2.7+flaskweb+mysql,实现界面参照https://blog.csdn.net/wangyan2647/article/details/88430404

资源截图

代码片段和文件信息

# -*- coding:utf-8 -*-
“““
#@file: .py
#@time: 2019/1/8 0008 15:02
“““

from __future__ import division

import io
import codecs
import math
import numpy as np
import jieba.analyse
import sys


reload(sys)
sys.setdefaultencoding(‘utf-8‘)

def SIM_COS(s1_cut s2_cut):
    word_set = set(s1_cut).union(s2_cut)
    word_dict = dict()
    i = 0
    for word in word_set:
        word_dict[word] = i
        i += 1

    #s1_cut_code = [word_dict[word] for word in s1_cut]
    s1_cut_code = [0] * len(word_dict)
    for word in s1_cut:
        s1_cut_code[word_dict[word]]+=1

    #s2_cut_code = [word_dict[word] for word in s2_cut]
    s2_cut_code = [0] * len(word_dict)
    for word in s2_cut:
        s2_cut_code[word_dict[word]] += 1

    sum = 0
    sq1 = 0
    sq2 = 0
    for i in range(len(s1_cut_code)):
        sum += s1_cut_code[i] * s2_cut_code[i]
        sq1 += pow(s1_cut_code[i] 2)
        sq2 += pow(s2_cut_code[i] 2)

    try:
        result = round(float(sum) / (math.sqrt(sq1) * math.sqrt(sq2)) 2)
    except ZeroDivisionerror:
        result = 0.0
    return result

#path1:keyword path2:contents
def writePath(path1path2allline):
    doc_list1 = []
    doc_list2 = []
    stopwords = []
    for word in open(“G:/Flaskweb/flaskweb/stopwords/CH_stopWords.txt“ “r“):
        stopwords.append(word.strip())

    line4=[]
    allline = allline.replace(‘\t‘‘‘)
    line5 = allline.split(u‘。‘)
    print(type(line5))
    for line in line5:
        if(len(line)!=0):
            line4.append(line.replace(‘ ‘‘‘).replace(‘\t‘‘‘))
    # print(len(line5))
    # print(line4[0])
    fw1 = io.open(path1 ‘w‘ encoding=‘utf-8‘)
    fw2 = io.open(path2 ‘w‘ encoding=‘utf-8‘)

    for q in line4:
        # print(q.decode(“UTF-8“))
        fw2.write(unicode(q)+‘\n‘)
        # print(“This is from cosinDistance fw2 yes?“)
        words = jieba.cut(q cut_all=False)
        stayed_line = []
        for word in words:
            if word.encode(“utf-8“) not in stopwords:
                    stayed_line.append(word)
        # keywords = jieba.analyse.extract_tags(stayed_line topK=10)
        # doc_list2.append(stayed_line)
        fw1.write(unicode(“ “.join(stayed_line)) + ‘\n‘)

    fw1.close()
    fw2.close()
    return 1

def cosdistance(path1 path2 path3 allline):
    doc_list1 = []
    doc_list2 = []
    status = writePath(path2path3allline)

    if(status == 1):
        # print(len(doc_list2))

        fr1 = codecs.open(path1 ‘r‘ ‘utf-8‘)
        for line in fr1.readlines():
            # line = line.replace(‘\n‘‘‘)
            line = line.strip()
            if (len(line) != 0):
                doc_list1.append(line.split(‘ ‘))

        fr2 = codecs.open(path2 ‘r‘ ‘utf-8‘)
        for line in fr2.readlines():
            # line = line.replace(‘\n‘‘‘)
            line = line.strip()
            if (len(line) != 0):
                doc_list2.app

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2019-04-01 15:00  Flaskweb\
     目录           0  2019-04-01 15:00  Flaskweb\.idea\
     文件         488  2018-12-21 13:05  Flaskweb\.idea\Flaskweb.iml
     文件        3043  2019-04-01 15:00  Flaskweb\test20190115.py
     文件         185  2018-12-21 13:05  Flaskweb\.idea\misc.xml
     文件         268  2018-12-21 12:44  Flaskweb\.idea\modules.xml
     文件       43774  2019-04-01 15:00  Flaskweb\.idea\workspace.xml
     文件         479  2019-04-01 15:00  Flaskweb\ReName.py
     文件        2391  2019-01-09 13:59  Flaskweb\content_10.txt
     文件         695  2019-01-08 21:01  Flaskweb\content_20.txt
     文件        6654  2019-04-01 14:59  Flaskweb\cosinDistance.py
     文件        4290  2019-01-11 21:43  Flaskweb\cosinDistance.pyc
     文件       36528  2019-01-14 21:46  Flaskweb\demo.docx
     文件        8286  2019-04-01 15:00  Flaskweb\docxCos.py
     文件        5751  2019-01-23 12:06  Flaskweb\docxCos.pyc
     目录           0  2019-04-01 14:59  Flaskweb\flaskweb\
     文件        1479  2019-04-01 14:59  Flaskweb\flaskweb\Sim_Cos.py
     文件        1540  2019-01-08 20:21  Flaskweb\flaskweb\Sim_Cos.pyc
     文件        2162  2019-04-01 14:59  Flaskweb\flaskweb\Tools.py
     文件        2610  2019-01-23 11:32  Flaskweb\flaskweb\Tools.pyc
     文件         462  2019-04-01 14:59  Flaskweb\flaskweb\__init__.py
     文件         758  2018-12-24 16:08  Flaskweb\flaskweb\__init__.pyc
     文件         223  2019-01-14 10:55  Flaskweb\flaskweb\app.conf
     文件         534  2019-04-01 14:59  Flaskweb\flaskweb\doc-docx.py
     文件        1518  2019-04-01 14:59  Flaskweb\flaskweb\getKeyWord.py
     文件        1747  2018-12-25 15:32  Flaskweb\flaskweb\getKeyWord.pyc
     文件        3756  2019-04-01 14:59  Flaskweb\flaskweb\models.py
     文件        5157  2019-01-14 21:20  Flaskweb\flaskweb\models.pyc
     文件        3493  2019-04-01 14:59  Flaskweb\flaskweb\simHash.py
     文件        3168  2019-01-08 21:04  Flaskweb\flaskweb\simHash.pyc
     目录           0  2018-12-24 21:27  Flaskweb\flaskweb\stopwords\
............此处省略25个文件信息

评论

共有 条评论