资源简介
1. 读取文档并分词。要求给定一篇.txt英文文档,计算机读入并统计该篇文章由哪些词组成,按字母顺序输出出现过的词已经每个词的出现频率。
代码片段和文件信息
import java.util.*;
import java.io.*;
public class CountOccurrenceOfWords {
public static void main(String[] args) throws Exception {
Map hashMap = null;
BufferedReader infile = null;
StringTokenizer st = null;
String filename = “Test.txt“;
String string;
String file = null;
//打开一篇文章,名字是 Test.txt .
infile = new BufferedReader(new FileReader(filename));
while ((string = infile.readLine()) != null) {
file += string;//都出整篇文章,存入String中。
}
hashMap = new HashMap();
// 取出文章中的单词,““ “.“ “!“ “ “ 为各个单词的分界符。
st = new StringTokenizer(file “ .!“);
while (st.hasMoreTokens()) {
String key = st.nextToken();
//public static char toLowerCase(char key);
if (hashMap.get(key) != null) {
int value = ((Integer) hashMap.get(key)).intValue();
value++;
hashMap.put(key new Integer(value));
} else {
hashMap.put(key new Integer(1));
}
}
//按照单词的字母次序输出。
Map treeMap = new TreeMap(hashMap);
Set entrySet = treeMap.entrySet();
Iterator iterator = entrySet.iterator();
while (iterator.hasNext()) {
System.out.println(iterator.next());
}
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 301 2014-03-06 16:02 实验1\1\.classpath
文件 377 2014-03-06 16:02 实验1\1\.project
文件 629 2014-03-06 16:02 实验1\1\.settings\org.eclipse.jdt.core.prefs
文件 2460 2014-03-06 16:30 实验1\1\bin\CountOccurrenceOfWords.class
文件 1231 2014-03-06 16:30 实验1\1\src\CountOccurrenceOfWords.java
文件 299 2014-03-06 16:52 实验1\1\Test.txt
文件 96256 2014-03-06 16:51 实验1\实验1.doc
目录 0 2014-03-06 16:02 实验1\1\.settings
目录 0 2014-03-06 16:02 实验1\1\bin
目录 0 2014-03-06 16:02 实验1\1\src
目录 0 2014-03-06 16:03 实验1\1
目录 0 2014-03-06 16:59 实验1
----------- --------- ---------- ----- ----
101553 12
评论
共有 条评论