资源简介
本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。
文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
代码片段和文件信息
- 上一篇:老毛子华硕固件DDNS ipv6
- 下一篇:软件工程所有文档模板及详细案例
相关资源
- Pythonamp;课堂amp;笔记(高淇amp;400;集第
- Python中Numpy库最新教程
- 用python编写的移动彩信的发送程序
- Python全栈学习笔记面向对象大作业:
- python实现的ftp自动上传、下载脚本
- Python版的A*寻路算法
- IronPython IDE
- LCSTS高质量中文短文本摘要数据集
- pip-10.0.1.tar.gz
- Data Science from Scratch 2nd Edition
- 情感词极值表,台湾大学NTUSD简体中文
- shape_predictor_68_face_landmarks.dat.bz2 68个标
- 台湾大学NTUSD简体中文情感词典+知网
- 爬取豆瓣电影TOP250程序,包含非常详
- 人民日报2014语料库(全)
- MSCNN_dehaze.rar
- 爬取豆瓣排行榜电影数据(含GUI界面
- 字典文本资源
- 哈工大深圳NLP考试参考
- 中文基础情感词典(NTUSD/HowNet/Tsingh
- Brainfuck / OoK 解码脚本
- 自然语言处理、文本挖掘论文40篇 包
- people_daily_2014_corpus.zip
- 维基百科中文语料已分词
- 案例实战信用卡欺诈检测数据集
- 中文垃圾短信数据集NLP
- 招商策略_抱团启示录那些年我们一起
- sip-4.19.zip
- ChineseGLUE_lcqmc.zip
- 树莓派3b+学习使用教程
评论
共有 条评论