资源简介
3种中文分词方法:最大后向匹配法,CRF,LSTM。其中LSTM又用了三种方法输入,glove向量,Word2vec向量,还有将字映射成整数再通过embedding层映射成字向量作为输入。还包含中文分词的评分脚本。
代码片段和文件信息
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Author: 52nlpcn@gmail.com
# Copyright 2014 @ YuZhen Technology
#
# 4 tags for character tagging: B(Begin) E(End) M(Middle) S(Single)
import codecs
import sys
def character_2_word(input_file output_file):
input_data = codecs.open(input_file ‘r‘ ‘utf-8‘)
output_data = codecs.open(output_file ‘w‘ ‘utf-8‘)
i=0
for line in input_data.readlines():
if line == “\n“ or line.strip()==‘‘:
output_data.write(“\n“)
else:
char_tag_pair = line.strip().split(‘\t‘)
char = char_tag_pair[0]
tag = char_tag_pair[2]
if tag == ‘B‘:
output_data.write(‘ ‘ + char)
elif tag == ‘M‘:
output_data.write(char)
elif tag == ‘E‘:
output_data.write(char + ‘ ‘)
else: # tag == ‘S‘
output_data.write(‘ ‘ + char + ‘ ‘)
input_data.close()
output_data.close()
input_file=‘C:/Users/farewell/Desktop/CRF++-0.58/example/crf_msr/segment.txt‘
output_file=‘C:/Users/farewell/Desktop/CRF++-0.58/example/crf_msr/segmentresult.txt‘
if __name__ == ‘__main__‘:
character_2_word(input_file output_file)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 1259 2018-06-07 10:29 中文分词\CRF++\crf_data_2_word.py
文件 50688 2013-02-12 23:40 中文分词\CRF++\crf_learn.exe
文件 50688 2013-02-12 23:40 中文分词\CRF++\crf_test.exe
文件 337408 2013-02-12 23:40 中文分词\CRF++\libcrfpp.dll
文件 890 2018-06-06 20:13 中文分词\CRF++\make_crf_test_data.py
文件 1141 2018-06-06 20:47 中文分词\CRF++\make_crf_train_data.py
文件 69592 2018-06-18 14:22 中文分词\CRF++\read me.docx
文件 238 2018-06-04 16:56 中文分词\CRF++\template
文件 569 2018-06-14 14:17 中文分词\glove向量作为lstm中文分词输入\bi_lstm_model.py
文件 262 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\.gitignore
文件 1695 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\demo.sh
文件 3419 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\matlab\evaluate_vectors.m
文件 812 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\matlab\read_and_evaluate.m
文件 204 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\matlab\WordLookup.m
文件 3455 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\octave\evaluate_vectors_octave.m
文件 833 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\octave\read_and_evaluate_octave.m
文件 214 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\octave\WordLookup_octave.m
文件 4307 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\python\evaluate.py
文件 212 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._capital-common-countries.txt
文件 212 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._capital-world.txt
文件 212 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._city-in-state.txt
文件 212 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._currency.txt
文件 212 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._family.txt
文件 212 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram1-adjective-to-adverb.txt
文件 212 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram2-opposite.txt
文件 212 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram3-comparative.txt
文件 212 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram4-superlative.txt
文件 212 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram5-present-participle.txt
文件 212 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram6-nationality-adjective.txt
文件 212 2015-10-25 00:52 中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram7-past-tense.txt
............此处省略59个文件信息
评论
共有 条评论