资源简介
相似度计算,句向量,人工智能,文本抽取,深度学习,
代码片段和文件信息
import gensim.models as g
import codecs
import numpy
import numpy as np
model_path = ‘./data/zhiwiki_news.doc2vec‘
start_alpha = 0.01
infer_epoch = 1000
docvec_size = 192
def simlarityCalu(vector1 vector2):
vector1Mod = np.sqrt(vector1.dot(vector1))
vector2Mod = np.sqrt(vector2.dot(vector2))
if vector2Mod != 0 and vector1Mod != 0:
simlarity = (vector1.dot(vector2)) / (vector1Mod * vector2Mod)
else:
simlarity = 0
return simlarity
def doc2vec(file_name model):
import jieba
doc = [w for x in codecs.open(file_name ‘r‘ ‘utf-8‘).readlines() for w in jieba.cut(x.strip())]
doc_vec_all = model.infer_vector(doc alpha=start_alpha steps=infer_epoch)
return doc_vec_all
if __name__ == ‘__main__‘:
model = g.
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 1002 2018-08-17 16:17 doc2vec训练与相似度计算\doc2vec_sim.py
文件 1034 2018-08-17 16:17 doc2vec训练与相似度计算\infer_test.py
文件 8115 2018-08-17 16:17 doc2vec训练与相似度计算\langconv.py
文件 1044 2019-05-20 12:29 doc2vec训练与相似度计算\train_model.py
文件 151535 2018-08-17 16:17 doc2vec训练与相似度计算\zh_wiki.py
目录 0 2019-05-21 15:36 doc2vec训练与相似度计算
----------- --------- ---------- ----- ----
162730 6
评论
共有 条评论