资源简介
本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。
文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
代码片段和文件信息
- 上一篇:老毛子华硕固件DDNS ipv6
- 下一篇:软件工程所有文档模板及详细案例
相关资源
- MSCNN_dehaze.rar
- 爬取豆瓣排行榜电影数据(含GUI界面
- 字典文本资源
- 哈工大深圳NLP考试参考
- 中文基础情感词典(NTUSD/HowNet/Tsingh
- Brainfuck / OoK 解码脚本
- 自然语言处理、文本挖掘论文40篇 包
- people_daily_2014_corpus.zip
- 维基百科中文语料已分词
- 案例实战信用卡欺诈检测数据集
- 中文垃圾短信数据集NLP
- 招商策略_抱团启示录那些年我们一起
- sip-4.19.zip
- ChineseGLUE_lcqmc.zip
- 树莓派3b+学习使用教程
- numpy 中文学习手册
- NLPCC2014 微博情感分析样例数据
- pytorch-1.4.0-py3.7_cpu_0.tar.bz2
- 机器学习实战 高清完整版PDF
- 2016年国科大NLP自然语言处理期末考试
- 泰坦尼克号0.81准确率实验报告.docx
-
abaqus sc
ripting reference manual.pdf - 网页版聊天程序--网络程序设计课程大
- Give Me Some Credit
-
ba
semap安装出错时,正确得pyproj文件 - 来自于NLPCC2013,解析成txt文件 不均衡
- 微信头像拼接工具
- 统计思维:程序员数学之概率统计第
- 基于open cv的人脸识别
- Deep Learning for NLP and Speech Recognition.p
评论
共有 条评论