资源简介
中文自动分词
1. 使用任意分词方法实现汉语自动分词;
2. 给出至少1000个句子的分词结果(以附件形式);
3. 计算出分词结果的正确率,并给出计算依据;
4. 用实例说明所用分词方法分别对“交叉歧义”和“组合歧义”的处理能力;
5. 提交实验报告,给出详细实验过程和结果;提交源代码和可执行程序。
代码片段和文件信息
# -*- coding: utf-8 -*-
import jieba
import codecs
with open(‘input.txt‘ ‘r‘) as f:
for line in f:
seg = jieba.cut(line.strip() cut_all = False)
s= ‘ ‘.join(seg)
m=list(s)
with open(‘source.txt‘‘a+‘)as f:
for word in m:
f.write(word.encode(‘utf-8‘))
f.write(‘\n‘)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 55749 2018-05-19 23:21 中文信息处理-实验二\1.txt
文件 56251 2018-05-19 23:21 中文信息处理-实验二\2.txt
文件 32579 2018-05-19 23:21 中文信息处理-实验二\source.txt
文件 357 2018-05-24 15:18 中文信息处理-实验二\work2.py
文件 534 2018-05-19 23:21 中文信息处理-实验二\work22.py
文件 375808 2018-07-06 16:21 中文信息处理-实验二\中文信息处理-实验二.doc
目录 0 2018-07-06 16:22 中文信息处理-实验二
----------- --------- ---------- ----- ----
521278 7
- 上一篇:Electron - 旋转的小尾巴
- 下一篇:OpenStack平台搭建
相关资源
- HeadFirst 中文版全集百度云
- qt中文语言包
- GRBL中文翻译代码中文注释
- gRPC+官方文档中文版_1.0
- DS2781中文手册
- 最全的中文停用词表20K
- Mac Navicat Premium 11.2.15 简体中文版破解
- 《设计模式》(中文版) PDF
- 中文版Revit 2016完全自学教程
- csapp中文第三版pdf(深入理解计算机操
- STK中文教程
- sd卡协议(中文)
- VISIO 2010 中文版
- Quite Imposing Plus 4.0K中文汉化版带注册
- .net 图片转字符画,可选择数字字符画
- UE4官方全套_中文字幕_教学视频
- MVC外文文獻中文翻译对照毕设论文翻
- Servlet API(中文版)
- 深入理解计算机系统 第三版 中文版
- poedit的自动翻译中文zh_CN.po词库10187条
- netica操作指南中文
- 中文停止词库
- fluent udf中文帮助
- 2018年EI收录中文期刊目录
- 必然 - 凯文·凯利.txt 完整中文版
- Node.js v0.10.18 手册 & 中文.chm
- X-Plane11UDP通讯说明文档中文翻译版,
- 中英文停用词合集内含哈工大、四川
- ios简体中文全局转繁体中文
- Genero Studio 汉化包
评论
共有 条评论