资源简介
在最新版的中科分词系统基础上,进行了改进,加入用户词典和停用词,并进行文件无乱码读写,输出分词结果,效果不错,是情感分析的良好基础。这一部分,我用来写作为硕士论文的数据处理基础。在此分享给各位,欢迎指教
代码片段和文件信息
package com.lingjoin.nlpir.test;
import java.io.*;
import java.util.ArrayList;
import java.util.List;
import com.lingjoin.nlpir.NLPIR;
public class NLPIRTest {
private List files = new ArrayList<>(); //创建数组files
//getAllFiles函数来获得文件的绝对路径
private void getAllFiles(File filePath) {
File[] fsFiles = filePath.listFiles();//获得filepath的绝对路径
assert fsFiles != null;
for (File f : fsFiles) {
if (f.isFile() && !f.getName().equals(“.DS_Store“)) files.add(f.getPath());//获得文件的路径
if (f.isDirectory()) this.getAllFiles(f);//递归调用,将文件的绝对路径存入数组files中
}
}
// private String getContent(File file)throws Exception{
// RandomAccessFile f=new RandomAccessFile(file “r“);
// byte[] b=new byte[(int) file.length()];
// f.read(b);
// f.close();
// //String c=new String(b“GBK“).replaceAll(“\\s“ ““);
// return (new String(b+“\n“));
// }
private List segLines(File file) throws Exception {
BufferedReader bf = new BufferedReader(new InputStreamReader(new FileInputStream(file) “GBK“));
List temp = new ArrayList<>();
String str;
while ((str = bf.readLine()) != null) {
//String str2 = str + “\r\n“;
temp.add(str);
}
bf.close();
return temp;
}
private void excludeStopWord(File file) throws Exception {
BufferedWriter bw = new BufferedWriter(new FileWriter(“excludeStopWord.txt“));
//BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(“excludeSto
- 上一篇:学生信息管理系统完整源代码+mysql文件
- 下一篇:学生成绩管理系统--JAVA
评论
共有 条评论