资源简介
可以实现网页的爬取,到分词,词语的向量化
代码片段和文件信息
package fenci;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
//读取文本文件,并进行输出txt
public class READ {
public static String txt2String(File file){
String result = ““;
try{
BufferedReader br = new BufferedReader(new FileReader(file));//构造一个BufferedReader类来读取文件
String s = null;
while((s = br.readLine())!=null){//使用readLine方法,一次读一行
result = result+s+“结束“+“\n“;
}
br.close();
}catch(Exception e){
e.printStackTrace();
}
return result;
}
/*
public static void main(String[] args){
File file = new File(“E:/数据挖掘/分词/分词文件文档/test1.txt“);
System.out.println(txt2String(file));
}
*/
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-03-28 22:47 2\
文件 7154 2016-03-28 22:46 2\moviedoubancomsubject1889243reviewsstart148filterlimit20.txt
文件 7158 2016-03-28 22:46 2\moviedoubancomsubject1889243reviewsstart188filterlimit20.txt
目录 0 2016-03-28 22:47 2\分词后\
文件 11659 2016-03-28 22:46 2\分词后\fenci.doc
文件 39211 2016-03-28 22:46 2\分词后\javaVector.doc
文件 30189 2016-03-28 22:26 2\分词后\javaVector.txt
文件 27954 2016-03-24 16:32 2\分词后\vectors_good.bin
目录 0 2016-03-28 22:47 2\词向量\
文件 46897 2016-03-28 22:46 2\词向量\cixiangliang.doc
目录 0 2016-03-23 22:04 WebSpider_Fenci_Word2vec\
文件 2074 2016-01-25 21:30 WebSpider_Fenci_Word2vec\.classpath
文件 400 2016-01-25 15:47 WebSpider_Fenci_Word2vec\.project
目录 0 2016-02-05 16:52 WebSpider_Fenci_Word2vec\.settings\
文件 1832 2016-03-23 21:56 WebSpider_Fenci_Word2vec\.settings\org.eclipse.core.resources.prefs
文件 598 2016-01-25 15:47 WebSpider_Fenci_Word2vec\.settings\org.eclipse.jdt.core.prefs
目录 0 2016-01-25 15:48 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\
目录 0 2016-02-05 16:52 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\
目录 0 2016-02-05 16:52 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\
文件 1728 2006-09-23 16:30 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\beanybaby
文件 1917 2006-09-17 07:24 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\beanybaby.cmd
文件 1348 2006-09-23 16:30 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\filterbuilder
文件 2140 2006-09-17 07:24 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\filterbuilder.cmd
文件 1646 2006-09-23 16:30 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\lexer
文件 1722 2006-09-17 07:24 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\lexer.cmd
文件 1708 2006-09-23 16:30 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\parser
文件 1905 2006-09-17 07:24 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\parser.cmd
文件 1803 2006-09-23 16:30 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\sitecapturer
文件 2116 2006-09-17 21:03 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\sitecapturer.cmd
文件 1338 2006-09-23 16:30 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\thumbelina
文件 2118 2006-09-17 07:24 WebSpider_Fenci_Word2vec\HTMLParser-2.0-SNAPSHOT-bin\HTMLParser-2.0-SNAPSHOT\bin\thumbelina.cmd
............此处省略199个文件信息
评论
共有 条评论