资源简介
主要用于文本的量化处理,非常适合计算文本的相似度以及文本分类,相比于tf-idf更优。
代码片段和文件信息
import jieba
import pandas as pd
import gensim
import re
jieba.load_userdict(‘d:/data/stocks/数据/平安银行字典.txt‘)#加载结巴分词的词典(还需要把各股票的名字导入进去,今天进行)
jieba.load_userdict(‘d:/data/stocks/数据/股票名称.txt‘)
def cut_word(text):
‘‘‘
分词操作,返回一个文章的所有单词列表
‘‘‘
#text=process_txt(str(text))
#text=‘ ‘.join(text)
text_list=re.split(u‘[^\u4e00-\u9fa50-9a-zA-Z]+‘ str(text))
word_list=[]
for sent in text_list:
word_list1=jieba.cut(sent)
for word in word_list1:
word_list.append(word)
return word_list
#print(df)#打印df
#df[‘index‘]=0:(len(df)-1)#给文章一个训练id号
##训练Doc2vec模型
import gensim
#import multiprocessing
#import logging
LabeledSentence = gensim.models.doc2vec.LabeledSentence
#先把所有文档的路径存进一个 array 中,docLabels:
from os import listdir
- 上一篇:arcgis python脚本,自动发布服务
- 下一篇:卷积LSTM代码
评论
共有 条评论