资源简介
深度学习中word2vector测试语料text8
word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。
它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高。
词向量:用Distributed Representation表示词,通常也被称为“Word Representation”或“Word Embedding(嵌入)”。
word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。
它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高。
词向量:用Distributed Representation表示词,通常也被称为“Word Representation”或“Word Embedding(嵌入)”。
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 100000000 2006-06-09 20:40 text8.txt
----------- --------- ---------- ----- ----
100000000 1
----------- --------- ---------- ----- ----
文件 100000000 2006-06-09 20:40 text8.txt
----------- --------- ---------- ----- ----
100000000 1
- 上一篇:AutoJs.zip
- 下一篇:数字图像处理m文件,代码及图片素材
相关资源
- 中文维基语料Word2Vec训练模型
- NiuTrans中英平行语料库10万句164360
- word2vec_中的数学原理详解.pdf164150
- Chinese Treebank 8.0
- NiuTrans中英平行语料库10万句
- 汉语语料库分词、词性标注、多领域
- 中文情感酒店评论语料
- NLPCC2014任务1和任务2微博情感分析语料
- 情感语料库
- casia汉语情感语料库158051
- 22万句对法律类句子对齐语料
- 垃圾邮件语料库
- 微博情感语料200W条
- 搜狗文本分类语料库-中文文本分类
- 语料库一问一答形式
- 中文情感分析语料整理
- 搜狗最新文本分类语料库
- 中英平行语料库八万对,句粒度
- COAE2014语料
- CASIA汉语情感语料库.rar
- dataSet_word2vec训练词向量
- Google word2vec算法 数学原理
- word2vec Pytorch实现文本数据
- 百度百科百万级问答语料集
- word2vec词向量训练及中文文本相似度计
- 复旦新闻语料库测试集
- 中国古诗词语料
- 汉语语音情感语料库.rar
- 中文文本分类语料复旦完整版
- 复旦完整版语料库+停用词+精选10类每
评论
共有 条评论