资源简介
lucene文档检索系统,java源码,可执行程序,支持pdf,doc,xls,ppt,html,txt。
代码片段和文件信息
/**
* Licensed to the Apache Software Foundation (ASF) under one or more
* contributor license agreements. See the NOTICE file distributed with
* this work for additional information regarding copyright ownership.
* The ASF licenses this file to You under the Apache License Version 2.0
* (the “License“); you may not use this file except in compliance with
* the License. You may obtain a copy of the License at
*
* http://www.apache.org/licenses/LICENSE-2.0
*
* Unless required by applicable law or agreed to in writing software
* distributed under the License is distributed on an “AS IS“ BASIS
* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND either express or implied.
* See the License for the specific language governing permissions and
* limitations under the License.
*/
import java.io.File;
import java.io.FileReader;
import org.apache.lucene.document.DateTools;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.htmlparser.*;
import org.htmlparser.visitors.*;
import org.htmlparser.util.*;
import org.apache.pdfbox.*;
import org.apache.pdfbox.pdmodel.*;
import java.io.*;
import org.apache.pdfbox.util.*;
import org.apache.pdfbox.searchengine.lucene.*;
import org.apache.poi.hwpf.extractor.*;
import org.apache.poi.hslf.usermodel.*;
import org.apache.poi.hslf.*;
import org.apache.poi.hslf.model.*;
import org.apache.poi.hssf.usermodel.*;
import java.util.*;
import org.apache.poi.ss.usermodel.*;
/** A utility for making Lucene Documents from a File. */
public class FileDocument {
/** Makes a document for a File.
The document has three fields:
path
--containing the pathname of the file as a stored
untokenized field;
modified
--containing the last modified date of the file as
a field as created by href=“lucene.document.DateTools.html“>DateTools; and
contents
--containing the full contents of the file as a
Reader field;
*/
public static Document Document(File f) throws java.io.
FileNotFoundException {
// make a new empty document
Document doc = new Document();
String[] encoding = {“UTF-8“ “GBK“ “GB2312“ “UTF-8“ “ISO8859_1“};
// Add the path of the file as a field named “path“. Use a field that is
// indexed (i.e. searchable) but don‘t tokenize the field into words.
doc.add(new Field(“path“ f.getPath() Field.Store.YES
Field.Index.NOT_ANALYZED));
// Add the last modified date of the file a field named “modified“. Use
// a field that is indexed (i.e. searchable) but don‘t tokenize the field
// into words.
doc.add(new Field(“modified“
DateTools.timeToString(f.lastModified()
DateTool
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 9272335 2009-12-21 23:28 检索课程设计上交内容\可执行程序\InfRetrW2.2.exe
文件 9743 2009-12-13 09:41 检索课程设计上交内容\源代码\FileDocument.java
文件 2359 2009-12-13 08:35 检索课程设计上交内容\源代码\IndexFiles.java
文件 4064 2009-12-13 11:27 检索课程设计上交内容\源代码\LuceneProc.java
文件 17678 2009-12-13 11:03 检索课程设计上交内容\源代码\Mainfr
文件 1070 2009-12-30 21:23 检索课程设计上交内容\源代码\MyTable.java
文件 52736 2009-12-13 11:27 检索课程设计上交内容\设计与说明文档\使用说明文档.doc
文件 35328 2009-12-24 10:15 检索课程设计上交内容\设计与说明文档\程序设计说明书.doc
文件 67584 2009-10-20 10:06 检索课程设计上交内容\设计与说明文档\课程设计要求.doc
目录 0 2009-12-24 10:11 检索课程设计上交内容\可执行程序
目录 0 2009-12-13 11:35 检索课程设计上交内容\源代码
目录 0 2009-12-24 10:15 检索课程设计上交内容\设计与说明文档
目录 0 2009-12-24 10:15 检索课程设计上交内容
----------- --------- ---------- ----- ----
9462897 13
相关资源
- 基于android的图书共享源码
- java 实现word 转PDF
- 医院门诊预约系统JavaWeb设计
- 2018-2019年黑马最新版Java程序员面试宝
- 简单音乐播放器android 源码
- JAVAWeb聊天室184508
- JAVA教程(史上最全)
- JavaEE项目源码及文档
- 在线小区物业管理系统
- 网上花店系统java附带数据库。论文
- jsp+javaBean+mysql在线调查问卷系统-Jav
- apache-ant-1.9.4-bin
- 学生信息管理系统含Java源代码 毕业论
- 学生成绩管理系统 java+sql
- 基于java web的超市管理系统包含源文件
- java web项目,在线水果商城
- JAVA语言开发的企业宣传网站源码
- JAVA课程设计学生信息管理系统源码
- Android日历+记事本源码
- java解析ASN.1文件的和简要使用说明
- java编写的一个简单bbs网站完整代码
- jsp毕业设计BBS论坛系统源码+论文
- JAVA 做的教务管理系统毕业设计
- javaweb 实现的图书管理系统完整版
- java代码实现的微云盘系统仿百度云
- jsp航空订票系统改进版源码
- 数据库课程设计——学生选课信息管
- 5款新闻发布系统JSP+JAVA源代码
- Android项目源码利用加速度传感器实现
- 基于java swing的考试系统的课程设计
评论
共有 条评论