• 大小: 828KB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-01-10
  • 语言: Java
  • 标签: webCat  格式转换  

资源简介

java对文本的格式进行转换 RTF html RTF doc等

资源截图

代码片段和文件信息

package pt.tumba.parser;

import java.util.*;


/**
 * @author Bruno Martinss
 */
public class Content {

protected List terms;
protected Map termslinks;
protected List textBlocks;
protected Map wordGrams;
protected Map annotationCount;
protected Map annotations;
protected StringBuffer content;
protected int numTokens;
protected int numTokensWithStopWords;


/**
 *  The rabin hash function used to produce an hash code for the content of
 *  the document
 */
private RabinHashFunction hashFunction = new RabinHashFunction();


/**
 *  Returns the terms extracted from the document. The difference for the getTokens
 * method is that this one filters the stop-words.
 *
 *@return  An iterator over the terms extracted from the document
 */
public Iterator getTerms() {
Vect

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2014-10-17 15:55  webcat\
     目录           0  2014-10-17 15:55  webcat\Document Parser\
     文件          69  2005-01-03 12:28  webcat\Document Parser\.checkclipse
     文件          85  2005-01-03 12:28  webcat\Document Parser\.checkstyle
     文件         304  2005-01-03 12:28  webcat\Document Parser\.classpath
     文件         787  2005-01-03 12:28  webcat\Document Parser\.project
     目录           0  2014-10-17 15:55  webcat\Document Parser\pt\
     目录           0  2014-10-17 15:55  webcat\Document Parser\pt\tumba\
     目录           0  2014-10-17 15:55  webcat\Document Parser\pt\tumba\parser\
     文件        5857  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\Content.class
     文件        8236  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\Content.java
     文件         144  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\DocFilter.class
     文件         379  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\DocFilter.java
     文件        6760  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\HTMLMarkup.class
     文件       11247  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\HTMLMarkup.java
     文件       36416  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\HTMLParser.class
     文件       51966  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\HTMLParser.java
     文件        2821  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\Hyperlinks.class
     文件        2464  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\Hyperlinks.java
     文件        2279  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\Imagelinks.class
     文件        1820  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\Imagelinks.java
     文件        8883  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\metaData.class
     文件       10140  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\metaData.java
     文件        3861  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\NativeExec.class
     文件        3535  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\NativeExec.java
     文件        5630  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\RabinHashFunction.class
     文件       10112  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\RabinHashFunction.java
     文件       46480  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\StopWords.class
     文件       30333  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\StopWords.java
     文件        5696  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\StringUtils.class
     文件       10252  2005-01-03 12:28  webcat\Document Parser\pt\tumba\parser\StringUtils.java
............此处省略446个文件信息

评论

共有 条评论