资源简介
在使用StanfordCoreNLP对文本句子进行分析时,需要先对句子进行分词
nlp.word_tokenize(sentence)
然后对分词后的句子进行句子成分分析
nlp.pos_tag(sentence)
然后继续进行命名实体识别
nlp.ner(sentence)
再之后就是句法分析与依存句法分析
nlp.parse(sentence)
nlp.dependency_parse(sentence)
代码片段和文件信息
# -*- coding: utf-8 -*-
“““
Created on Wed Apr 17 23:16:12 2019
@author: Dell
“““
#segmentor = Segmentor()
#segmentor.load(“/path/to/your/cws/model“)
#words = segmentor.segment(“元芳你怎么看“)
#print(words)
#print(“|“.join(words))
#segmentor.release()
from pyltp import SentenceSplitter
from pyltp import Segmentor
from pyltp import Postagger
from pyltp import SementicRoleLabeller
from pyltp import NamedEntityRecognizer
from pyltp import Parser
import os
LTP_DATA_DIR = ‘E:/自然语言处理/MYltp/ltp_data‘ # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR ‘cws.model‘) # 分词模型路径,模型名称为‘cws.model‘
segmentor = Segmentor() # 初始化实例
segmentor.load(cws_model_path) # 加载模型
#sentence = open(‘E:/自然语言处理/实验四/chinese_sen.txt‘)
words = segmentor.segment(‘学历造假风波一月后,翟天临与辛芷蕾牵手回家。武磊替补登场,梅西独中两元助巴萨2:0战胜西班牙人。漫威影业官方微博宣布《复仇者联盟4》正式定档4月24日在内地上映。3月29日下午,呼声极高的人工智能专业被列入新增审批本科专业名单,全国共有35所高校获首批建设资格。ACM宣布,深度学习的三位创造者Yoshua Bengio,Yann LeCun,以及Geoffrey Hinton获得了2019年的图灵奖。‘) # 分词
#print(‘\t‘.join(words))
segmentor.release() # 释放模型
pos_model_path = os.path.join(LTP_DATA_DIR ‘pos.model‘) # 词性标注模型路径,模型名称为‘pos.model‘
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path) # 加载模型
postags = postagger.postag(words) # 词性标注
#print (‘\t‘.join(postags))
postagger.release() # 释放模型
par_model_path = os.path.join(LTP_DATA_DIR ‘parser.model‘)# 依存句法分析模型路径,模型名称为‘parser.model‘
parser = Parser()# 初始化实例
parser.load(par_model_path)# 加载模型
arcs = parser.parse(words postags)# 句法分析#信息提取,结果展示
rely_id = [arc.head for arc in arcs]# 提取依存父节点
idrelation = [arc.relation for arc in arcs]# 提取依存关系
heads = [‘Root‘ if id ==0 else words[id-1]for id in rely_id]# 匹配依存父节点词语
for i in range(len(words)):
print(relation[i] +‘(‘ + words[i] +‘ ‘ + heads[i] +‘)‘)
parser.release()# 释放模型
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 2390 2019-04-21 20:34 pyltpTest.py
文件 0 2019-04-16 10:33 StandFordChinese.txt
文件 851 2019-04-16 22:27 StanFordEnglish.txt
文件 6320 2019-03-31 16:59 常用的标注指代.txt
文件 361 2019-03-31 16:59 chinese_sen.txt
文件 188 2019-03-31 17:13 english_sen.txt
文件 0 2019-04-16 10:34 otherNlp.txt
----------- --------- ---------- ----- ----
10110 7
相关资源
- 自然语言处理-关键词提取四种方法
- 哈工大自然语言处理课件及实验
- 自然语言处理、文本挖掘论文40篇 包
- 人体疾病,病症数据库
- 处理好的人民日报语料,可以直接用
- 中文情感词典
- 唐宇迪word2vec的系列代码自然语言处理
- 统计自然语言处理宗成庆
- 2016年国科大NLP自然语言处理期末考试
- 自然语言处理之文本主题判别
- 自然语言处理大作业-对联系统
- 基于深度学习的自然语言处理 英文版
- 用RNN与LSTM网络原理进行唐诗生成.ta
- 搜狗词库带词性词频
- GATE 自然语言处理
- 中文文本分类项目数据集.rar
- 自然语言处理课程设计--中文情感分类
- 汉语分词语料库
- 自然语言处理技术
- 哈工大同义词词林扩展版
- 中文信息处理发展报告2016+知识图谱发
- Foundations of Statistical Natural Language Pr
- 国科大自然语言处理期末试卷(宗成
- 文本生成前沿综述
- 中文实体词典(NLP必备)
- Neural Network Methods for Natural Language Pr
- 《统计机器翻译》
- 计算语言学刘颖
- 自然语言处理理论与实战
- 20190712-面向自然语言处理的深度学习
评论
共有 条评论