• 大小: 14.89MB
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2023-07-22
  • 语言: 其他
  • 标签: 中文分词  

资源简介

3种中文分词方法:最大后向匹配法,CRF,LSTM。其中LSTM又用了三种方法输入,glove向量,Word2vec向量,还有将字映射成整数再通过embedding层映射成字向量作为输入。还包含中文分词的评分脚本。

资源截图

代码片段和文件信息

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Author: 52nlpcn@gmail.com
# Copyright 2014 @ YuZhen Technology
#
# 4 tags for character tagging: B(Begin) E(End) M(Middle) S(Single)

import codecs
import sys

def character_2_word(input_file output_file):
    input_data = codecs.open(input_file ‘r‘ ‘utf-8‘)
    output_data = codecs.open(output_file ‘w‘ ‘utf-8‘)
    i=0
    for line in input_data.readlines():
        if line == “\n“ or line.strip()==‘‘:
            output_data.write(“\n“)
        else:
            char_tag_pair = line.strip().split(‘\t‘)
            char = char_tag_pair[0]
            tag = char_tag_pair[2]
            if tag == ‘B‘:
                output_data.write(‘ ‘ + char)
            elif tag == ‘M‘:
                output_data.write(char)
            elif tag == ‘E‘:
                output_data.write(char + ‘ ‘)
            else: # tag == ‘S‘
                output_data.write(‘ ‘ + char + ‘ ‘)
    input_data.close()
    output_data.close()



input_file=‘C:/Users/farewell/Desktop/CRF++-0.58/example/crf_msr/segment.txt‘
output_file=‘C:/Users/farewell/Desktop/CRF++-0.58/example/crf_msr/segmentresult.txt‘
if __name__ == ‘__main__‘:
    character_2_word(input_file output_file)

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件       1259  2018-06-07 10:29  中文分词\CRF++\crf_data_2_word.py

     文件      50688  2013-02-12 23:40  中文分词\CRF++\crf_learn.exe

     文件      50688  2013-02-12 23:40  中文分词\CRF++\crf_test.exe

     文件     337408  2013-02-12 23:40  中文分词\CRF++\libcrfpp.dll

     文件        890  2018-06-06 20:13  中文分词\CRF++\make_crf_test_data.py

     文件       1141  2018-06-06 20:47  中文分词\CRF++\make_crf_train_data.py

     文件      69592  2018-06-18 14:22  中文分词\CRF++\read me.docx

     文件        238  2018-06-04 16:56  中文分词\CRF++\template

     文件        569  2018-06-14 14:17  中文分词\glove向量作为lstm中文分词输入\bi_lstm_model.py

     文件        262  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\.gitignore

     文件       1695  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\demo.sh

     文件       3419  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\matlab\evaluate_vectors.m

     文件        812  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\matlab\read_and_evaluate.m

     文件        204  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\matlab\WordLookup.m

     文件       3455  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\octave\evaluate_vectors_octave.m

     文件        833  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\octave\read_and_evaluate_octave.m

     文件        214  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\octave\WordLookup_octave.m

     文件       4307  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\python\evaluate.py

     文件        212  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._capital-common-countries.txt

     文件        212  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._capital-world.txt

     文件        212  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._city-in-state.txt

     文件        212  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._currency.txt

     文件        212  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._family.txt

     文件        212  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram1-adjective-to-adverb.txt

     文件        212  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram2-opposite.txt

     文件        212  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram3-comparative.txt

     文件        212  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram4-superlative.txt

     文件        212  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram5-present-participle.txt

     文件        212  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram6-nationality-adjective.txt

     文件        212  2015-10-25 00:52  中文分词\glove向量作为lstm中文分词输入\GloVe-1.2\eval\question-data\._gram7-past-tense.txt

............此处省略59个文件信息

评论

共有 条评论