资源简介
特征选择DF方法实现源代码
要求要先自行分好词
代码中有详细注释
代码片段和文件信息
package df;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.nio.CharBuffer;
public class DF {
public static void main(String[] args) {
// TODO Auto-generated method stub
int termNum = 1111; //词的数目,也就是没选择前特征数目
String [] terms; //用来记录每个词
String termFile=“KeyWordsDf.txt“; //要求先分好词,存放词的文件,每一行一个词
int [] w ; //用来记录每个词的权重
int k=100; //取权重最高的前K个feature
String termWeighFile=“termWeigh.txt“; //用于保存全部《特征 ,权重》对
String topFeatureFile=“top“ + k + “Feature.txt“; //保存前k个《特征 ,权重》对
String dirName=“F:\\\\ben\\TextCategory\\“; //存放所有语料集的目录地址,如C://
//初始化w
w=new int[termNum];
//把keywords导进来保存在terms数组里面
terms = new String[termNum];
//把语料集全部列出来
File dir = new File(dirName);
File[] files = dir.listFiles();
try {
FileInputStream fis2 = new FileInputStream(termFile);
InputStreamReader isr2 = new InputStreamReader(fis2);
BufferedReader br2 = new BufferedReader(isr2);
for(int i=0;i terms[i] = br2.readLine();
}
br2.close();
isr2.close();
fis2.close();
} catch (Exception e) {
System.out.println(e.getMessage());
}
//使用DF方法进行特征选择
df_count(filestermsw);
//输出《特征,权重》对
try {
FileOutputStream fos = new FileOutputStream(termWeighFile);
OutputStreamWriter osw = new OutputStreamWriter(fos);
BufferedWriter bw = new BufferedWriter(osw);
for(int i=0;i bw.write(terms[i]+“ “);
bw.write(String.valueOf(w[i]));
bw.newLine();
}
bw.close();
osw.close();
fos.close();
} catch (Exception e) {
System.out.println(e.getMessage());
}
//对《特征,权重》进行排序
top_feature(ter
- 上一篇:android多点触控 两指缩放的demo
- 下一篇:zookeeper的相关介绍
相关资源
- JSP企业人事管理系统设计(源代码+论
- Java写的cmm词法分析器源代码及javacc学
- JAVA JSP公司财务管理系统 源代码 论文
- android-support-v4.jar已打包进去源代码
- Java记事本【源代码 实验报告】
- java实现小型函数画图板(附源代码、
- 在线考试系统源代码(jsp)
- Android通讯录的源代码
- java编写21点游戏(附源代码)
- java 原创 坦克大战 源码 带有详细注释
- java sql2000员工管理系统数据库、文档
- 自己用java写的计算器源代码(代码注
- JAVA坦克大战游戏源代码
- 用Java编写的扫雷游戏源代码
- 《java程序设计》书附源代码
- 基于JAVA的物业收费管理系统源代码
- java编写的迅雷下载器
- java远程进行telnetftpssh连接的方法及源
-
ba
se64Encode编码,jar包源代码打包 - JavaWeb停车场管理系统(源代码,数据
- 50个java小游戏源代码
- 基于JSP学生成绩管理系统软件的开发
- java并发编程实战高清版pdf
- java并发编程实战pdf
- Java-核心技术-36-讲李运华完.pdf
- Java Generics and Collections.pdf
- 安卓平台记账软件源代码JAVA
- rpi_DATA_2711_1p0_preliminary.pdf
- 一线大厂Java多线程面试120题.pdf
- 基于RocketMQ的MQTT消息推送服务器分布
评论
共有 条评论