资源简介
HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。
代码片段和文件信息
package com.huaban.analysis.jieba.test;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import java.util.Set;
import org.junit.Test;
import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.mining.cluster.ClusterAnalyzer;
import com.hankcs.hanlp.seg.common.Term;
import config.Constant;
public class HanLPTest {
/* public static void main(String[] args)throws Exception {
File file = new File(“D:/HanLP/a.txt“);//Test文件
File file1 = new File(“D:/HanLP/stop_words.txt“);//停用词
File file2=new File(“D:/HanLP/aend.txt“);
BufferedReader br = new BufferedReader(new FileReader(file));//构造一个BufferedReader类来读取Test文件
BufferedReader br1 = new BufferedReader(new FileReader(file1));//构造一个BufferedReader类来读取totalstop文件
String string = null;
String string1 = null;
PrintWriter pfp= new PrintWriter(file2);
ArrayList stopword = new ArrayList();
while ((string1 = br1.readLine()) != null) {//使用readLine方法,一次读一行 读取停用词
stopword.add(string1);
}
br1.close();
//使用readLine方法,一次读一行,读取待处理文本
while ((string = br.readLine()) != null) {
ArrayList TermList = new ArrayList();
StringBuilder sb = new StringBuilder();
HanLP.Config.ShowTermNature = false; // 关闭词性显示
List termList = HanLP.segment(string);//调用HanLP.segment()对句子进行分词处理
for(int i = 0;i < termList.size(); i++){
TermList.add(termList.get(i).toString());
}
TermList.removeAll(stopword);
//System.out.println(TermList);
for(int i = 0;i < TermList.size(); i++) {
sb.append(TermList.get(i));
sb.append(“ “);
sb.toString();
}
pfp.print(sb);
pfp.write(“\r\n“);
pfp.flush();
}
pfp.close();
br.close();
}
*/
/**
* 测试方法
*/
@Test
public void test() {
String str[] = {“RCP““KIC““RCV““JDT““RIS““KCS““PMC““RRI““LHP““KCP““CFI““CEX““GGR““SWD““LHQ““RGL““CRF““ASG““SEC““PTR““APA““DVN““EPP““SAP““REN““VVP““ATE““EAS““AHP““GSY““RPN““GEV““GSS““GRE““DEL““TEP““RIC““KRT““RPE““DSI““RRB““ADG““RRA““GCT““GEX““DVL“};
//查找systemcode中的关键词
/*for (String string : str) {
List keywordList = extractionKeywords(string);
}*/
//生成聚
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 782530 2019-04-20 12:58 hanlp-1.7.3-release\hanlp-1.7.3-sources.jar
文件 1245864 2019-04-20 12:58 hanlp-1.7.3-release\hanlp-1.7.3.jar
文件 2455 2019-04-20 12:58 hanlp-1.7.3-release\hanlp.properties
文件 17172 2019-05-20 10:23 hanlp-1.7.3-release\HanLPTest.java
文件 550584 2019-05-14 10:27 hanlp-1.7.3-release\代码中的D盘文件\HanLP\a.txt
文件 526931 2019-05-16 09:11 hanlp-1.7.3-release\代码中的D盘文件\HanLP\aend.txt
文件 1134831 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.mini.txt
文件 6083120 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.ngram.mini.txt
文件 45691395 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.ngram.txt
文件 24032729 2019-05-14 11:35 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.ngram.txt.table.bin
文件 35398 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.tr.txt
文件 2162652 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.txt
文件 6123248 2019-05-15 10:56 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\CoreNatureDictionary.txt.bin
文件 43242 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\CustomDictionary.txt
文件 76 2019-05-15 11:04 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\MyWords.txt
文件 16977464 2019-05-15 11:07 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\MyWords.txt.bin
文件 15310 2019-05-17 15:55 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\stopwords.txt
文件 19131 2019-05-15 16:19 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\stopwords.txt.bin
文件 297405 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\上海地名.txt
文件 778491 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\人名词典.txt
文件 883582 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\全国地名大全.txt
文件 907824 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\机构名词典.txt
文件 3370144 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\custom\现代汉语补充词库.txt
文件 888 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\organization\nt.tr.txt
文件 262324 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\organization\nt.txt
文件 38753 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\other\CharTable.txt
文件 131099 2019-05-15 09:47 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\other\CharTable.txt.bin
文件 23030 2019-05-14 11:35 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\other\CharType.bin
文件 16246 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\other\TagPKU98.csv
文件 664 2019-05-14 11:32 hanlp-1.7.3-release\代码中的D盘文件\HanLP\data\dictionary\person\nr.tr.txt
............此处省略34个文件信息
- 上一篇:毕设-在线考试系统.zip
- 下一篇:JavaWeb后端代码自动生成工具
相关资源
- JAVA实现ICTCLAS2015分词
- 中文分词器(mmseg4j + luncene5.X)源码
- IKAnalyzer2012.jar
- HanLp数据字典1.3.3
- 提取关键词Java版
- jieba分词java版项目
- 古诗自动生成程序JAVA
- 后院分词系统yard源代码
- IKAnalyzer中文分词支持lucene6.5.0版本
- HanLp数据字典1.7.1
- 可训练的中文分词和词性标注系统
- ansj分词工具所需jar包最新
- IK分词jar包
- Lucene提取新闻关键词Top-N
- jieba分词jar包
- 基于CRF++的中文分词 数据+CRF++工具+
- java版结巴分词工具
- IKAnalyzer2012_u6中文分词器jar包
- IKAnalyzer中文分词器jar包
- 中文分词库 IKAnalyzer For Lucene 5.2.1适用
- IK分词器完整资源包 有配置文件和j
- IKAnalyzer2012FF_u1.jar download
- 中文分词与关键词提取NLPIR java版
- java 实现的中文分词算法代码
- Jieba-Analysis 结巴分词
- 基于java的中文自动分词自然语言处理
- IK-Analyzer-4.10.1.jar
- nlpir汉语分词系统
- 基于svm的中文文本分类
- 分词工具ANSJ 1.3版本
评论
共有 条评论