资源简介
java对文本的格式进行转换 RTF html RTF doc等
代码片段和文件信息
package pt.tumba.parser;
import java.util.*;
/**
* @author Bruno Martinss
*/
public class Content {
protected List terms;
protected Map termslinks;
protected List textBlocks;
protected Map wordGrams;
protected Map annotationCount;
protected Map annotations;
protected StringBuffer content;
protected int numTokens;
protected int numTokensWithStopWords;
/**
* The rabin hash function used to produce an hash code for the content of
* the document
*/
private RabinHashFunction hashFunction = new RabinHashFunction();
/**
* Returns the terms extracted from the document. The difference for the getTokens
* method is that this one filters the stop-words.
*
*@return An iterator over the terms extracted from the document
*/
public Iterator getTerms() {
Vect
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2014-10-17 15:55 webcat\
目录 0 2014-10-17 15:55 webcat\Document Parser\
文件 69 2005-01-03 12:28 webcat\Document Parser\.checkclipse
文件 85 2005-01-03 12:28 webcat\Document Parser\.checkst
文件 304 2005-01-03 12:28 webcat\Document Parser\.classpath
文件 787 2005-01-03 12:28 webcat\Document Parser\.project
目录 0 2014-10-17 15:55 webcat\Document Parser\pt\
目录 0 2014-10-17 15:55 webcat\Document Parser\pt\tumba\
目录 0 2014-10-17 15:55 webcat\Document Parser\pt\tumba\parser\
文件 5857 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\Content.class
文件 8236 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\Content.java
文件 144 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\DocFilter.class
文件 379 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\DocFilter.java
文件 6760 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\HTMLMarkup.class
文件 11247 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\HTMLMarkup.java
文件 36416 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\HTMLParser.class
文件 51966 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\HTMLParser.java
文件 2821 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\Hyperli
文件 2464 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\Hyperli
文件 2279 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\Imageli
文件 1820 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\Imageli
文件 8883 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\me
文件 10140 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\me
文件 3861 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\NativeExec.class
文件 3535 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\NativeExec.java
文件 5630 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\RabinHashFunction.class
文件 10112 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\RabinHashFunction.java
文件 46480 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\StopWords.class
文件 30333 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\StopWords.java
文件 5696 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\StringUtils.class
文件 10252 2005-01-03 12:28 webcat\Document Parser\pt\tumba\parser\StringUtils.java
............此处省略446个文件信息
评论
共有 条评论