• 大小: 65.14 KB
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2024-10-13
  • 语言: Java
  • 标签:

资源简介

1. 读取文档并分词。要求给定一篇.txt英文文档,计算机读入并统计该篇文章由哪些词组成,按字母顺序输出出现过的词已经每个词的出现频率。

资源截图

代码片段和文件信息

import java.util.*; 
import java.io.*; 
public class CountOccurrenceOfWords { 
public static void main(String[] args) throws Exception { 
Map hashMap = null; 
BufferedReader infile = null; 
StringTokenizer st = null; 
String filename = “Test.txt“; 
String string; 
String file = null; 
//打开一篇文章,名字是 Test.txt .
infile = new BufferedReader(new FileReader(filename)); 
while ((string = infile.readLine()) != null) { 
file += string;//都出整篇文章,存入String中。

hashMap = new HashMap(); 
// 取出文章中的单词,““ “.“ “!“ “ “ 为各个单词的分界符。
st = new StringTokenizer(file “ .!“); 
while (st.hasMoreTokens()) { 
String key = st.nextToken(); 
//public static char toLowerCase(char key);
if (hashMap.get(key) != null) { 
int value = ((Integer) hashMap.get(key)).intValue(); 
value++; 
hashMap.put(key new Integer(value)); 
} else { 
hashMap.put(key new Integer(1)); 



//按照单词的字母次序输出。
Map treeMap = new TreeMap(hashMap); 
Set entrySet = treeMap.entrySet(); 
Iterator iterator = entrySet.iterator(); 
while (iterator.hasNext()) { 
System.out.println(iterator.next());


}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件        301  2014-03-06 16:02  实验1\1\.classpath

     文件        377  2014-03-06 16:02  实验1\1\.project

     文件        629  2014-03-06 16:02  实验1\1\.settings\org.eclipse.jdt.core.prefs

     文件       2460  2014-03-06 16:30  实验1\1\bin\CountOccurrenceOfWords.class

     文件       1231  2014-03-06 16:30  实验1\1\src\CountOccurrenceOfWords.java

     文件        299  2014-03-06 16:52  实验1\1\Test.txt

     文件      96256  2014-03-06 16:51  实验1\实验1.doc

     目录          0  2014-03-06 16:02  实验1\1\.settings

     目录          0  2014-03-06 16:02  实验1\1\bin

     目录          0  2014-03-06 16:02  实验1\1\src

     目录          0  2014-03-06 16:03  实验1\1

     目录          0  2014-03-06 16:59  实验1

----------- ---------  ---------- -----  ----

               101553                    12


评论

共有 条评论

相关资源