• 大小: 5KB
    文件类型: .rar
    金币: 2
    下载: 0 次
    发布日期: 2024-02-01
  • 语言: 其他
  • 标签:

资源简介

在使用StanfordCoreNLP对文本句子进行分析时,需要先对句子进行分词 nlp.word_tokenize(sentence) 然后对分词后的句子进行句子成分分析 nlp.pos_tag(sentence) 然后继续进行命名实体识别 nlp.ner(sentence) 再之后就是句法分析与依存句法分析 nlp.parse(sentence) nlp.dependency_parse(sentence)

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-
“““
Created on Wed Apr 17 23:16:12 2019

@author: Dell
“““
#segmentor = Segmentor()
#segmentor.load(“/path/to/your/cws/model“)
#words = segmentor.segment(“元芳你怎么看“)
#print(words)
#print(“|“.join(words))
#segmentor.release()

from pyltp import SentenceSplitter
from pyltp import Segmentor
from pyltp import Postagger
from pyltp import SementicRoleLabeller
from pyltp import NamedEntityRecognizer
from pyltp import Parser
import os

LTP_DATA_DIR = ‘E:/自然语言处理/MYltp/ltp_data‘  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR ‘cws.model‘)  # 分词模型路径,模型名称为‘cws.model‘

segmentor = Segmentor()  # 初始化实例
segmentor.load(cws_model_path)  # 加载模型
#sentence = open(‘E:/自然语言处理/实验四/chinese_sen.txt‘)
words = segmentor.segment(‘学历造假风波一月后,翟天临与辛芷蕾牵手回家。武磊替补登场,梅西独中两元助巴萨2:0战胜西班牙人。漫威影业官方微博宣布《复仇者联盟4》正式定档4月24日在内地上映。3月29日下午,呼声极高的人工智能专业被列入新增审批本科专业名单,全国共有35所高校获首批建设资格。ACM宣布,深度学习的三位创造者Yoshua Bengio,Yann LeCun,以及Geoffrey Hinton获得了2019年的图灵奖。‘)  # 分词
#print(‘\t‘.join(words))
segmentor.release()  # 释放模型

pos_model_path = os.path.join(LTP_DATA_DIR ‘pos.model‘)  # 词性标注模型路径,模型名称为‘pos.model‘
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path)  # 加载模型
postags = postagger.postag(words)  # 词性标注
#print (‘\t‘.join(postags))
postagger.release()  # 释放模型

par_model_path = os.path.join(LTP_DATA_DIR ‘parser.model‘)# 依存句法分析模型路径,模型名称为‘parser.model‘
parser = Parser()# 初始化实例
parser.load(par_model_path)# 加载模型
arcs = parser.parse(words postags)# 句法分析#信息提取,结果展示
rely_id = [arc.head for arc in arcs]# 提取依存父节点
idrelation = [arc.relation for arc in arcs]# 提取依存关系
heads = [‘Root‘ if id ==0 else words[id-1]for id in rely_id]# 匹配依存父节点词语
for i in range(len(words)):
    print(relation[i] +‘(‘ + words[i] +‘ ‘ + heads[i] +‘)‘)
parser.release()# 释放模型


 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件       2390  2019-04-21 20:34  pyltpTest.py

     文件          0  2019-04-16 10:33  StandFordChinese.txt

     文件        851  2019-04-16 22:27  StanFordEnglish.txt

     文件       6320  2019-03-31 16:59  常用的标注指代.txt

     文件        361  2019-03-31 16:59  chinese_sen.txt

     文件        188  2019-03-31 17:13  english_sen.txt

     文件          0  2019-04-16 10:34  otherNlp.txt

----------- ---------  ---------- -----  ----

                10110                    7


评论

共有 条评论