资源简介

在最新版的中科分词系统基础上,进行了改进,加入用户词典和停用词,并进行文件无乱码读写,输出分词结果,效果不错,是情感分析的良好基础。这一部分,我用来写作为硕士论文的数据处理基础。在此分享给各位,欢迎指教

资源截图

代码片段和文件信息

package com.lingjoin.nlpir.test;

import java.io.*;
import java.util.ArrayList;
import java.util.List;
import com.lingjoin.nlpir.NLPIR;

public class NLPIRTest {

    private List files = new ArrayList<>(); //创建数组files

    //getAllFiles函数来获得文件的绝对路径
    private void getAllFiles(File filePath) {
        File[] fsFiles = filePath.listFiles();//获得filepath的绝对路径
        assert fsFiles != null;
        for (File f : fsFiles) {
            if (f.isFile() && !f.getName().equals(“.DS_Store“)) files.add(f.getPath());//获得文件的路径
            if (f.isDirectory()) this.getAllFiles(f);//递归调用,将文件的绝对路径存入数组files中
        }
    }

    // private String getContent(File file)throws Exception{
// RandomAccessFile f=new RandomAccessFile(file “r“);
// byte[] b=new byte[(int) file.length()];
// f.read(b);
// f.close();
// //String c=new String(b“GBK“).replaceAll(“\\s“ ““);
// return (new String(b+“\n“));
// }
    private List segLines(File file) throws Exception {
        BufferedReader bf = new BufferedReader(new InputStreamReader(new FileInputStream(file) “GBK“));
        List temp = new ArrayList<>();
        String str;
        while ((str = bf.readLine()) != null) {
            //String str2 = str + “\r\n“;
            temp.add(str);
        }
        bf.close();
        return temp;
    }
    private void excludeStopWord(File file) throws Exception {
        BufferedWriter bw = new BufferedWriter(new FileWriter(“excludeStopWord.txt“));
        //BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(“excludeSto

评论

共有 条评论