【目的】
Lucene在读取非txt文档时将无法正常建立索引.因为非txt文档一般其内容为二进制的.
通过Tika可以将非txt文档内容进行解析并提取到相关的文档内容.
【概述】
Tika是Apache公司在2008年推出一个项目,目的是为了在Lucene和其他格式的文件之间建立一个桥梁.通过Tika可以解析到非文本文件的内容.
【方式一】
/** * 读取文件内容 * @param file */ public void read(File file){ //AutoDetecParser:自动检测符合文件的Parser并进行返回 Parser parser = new AutoDetectParser(); InputStream stream = null; try { //创建输入流对象 stream = new FileInputStream(file); //内容的存放对象 BodyContentHandler handler = new BodyContentHandler(); //定义元数据存放对象 Metadata metaData = new Metadata(); //增加元数据的信息 metaData.add(metaData.RESOURCE_NAME_KEY, file.getName()); //创建ParseContext对象 //通过对象存储相关的变量信息 ParseContext context = new ParseContext(); //参数1 :输入流对象(转换内容的对象) //参数2 :内容的存放对象 //参数3 :元数据存放对象 //参数4 :上下文对象 parser.parse(stream,handler, metaData,context ); //输出文件的内容 System.out.println(handler); //输出元数据信息 for(String temp : metaData.names()){ System.out.println(temp + " = " + metaData.get(temp)); } } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (SAXException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (TikaException e) { // TODO Auto-generated catch block e.printStackTrace(); } finally{ try { stream.close(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }
1 /** 2 * 测试Tika读取文件内容 3 */ 4 @Test 5 public void testTika(){ 6 TikaUtil util = new TikaUtil(); 7 //util.read(new File("E:\lucene\files3\story2.docx")); 8 //util.read(new File("E:\lucene\files3\Linux20个常用命令.pdf")); 9 util.read(new File("E:\lucene\files3\学员末班申请表 - 模板.xls")); 10 System.out.println("内容读取完成"); 11 }
【方式二】
1 /** 2 * 读取文件内容 3 * @param file 4 */ 5 public void read2(File file){ 6 Tika tika = new Tika(); 7 8 try { 9 String content = tika.parseToString(file); 10 System.out.println(content); 11 } catch (IOException e) { 12 // TODO Auto-generated catch block 13 e.printStackTrace(); 14 } catch (TikaException e) { 15 // TODO Auto-generated catch block 16 e.printStackTrace(); 17 } 18 }
注意:方式2的执行效率低于方式1
【Tika创建索引】
1 /** 2 * 为指定路径下的文件创建索引 3 * @param filePath 4 */ 5 public void createIndex( String filePath){ 6 IndexWriter writer = null; 7 8 try{ 9 //创建Writer 10 writer = util.getWriter(this.getDirectory(path), this.getConfig()); 11 12 //创建Document 13 Document doc = null; 14 15 //获取文件列表 16 File list = new File(filePath); 17 Tika tika = new Tika(); 18 19 //创建索引 20 int i = 0; 21 for(File file : list.listFiles()){ 22 doc = new Document(); 23 //建立Id列 24 doc.add(new Field("id",String.valueOf(i++),Field.Store.YES,Field.Index.NOT_ANALYZED)); 25 doc.add(new Field("filename",file.getName(),Field.Store.YES,Field.Index.NOT_ANALYZED_NO_NORMS)); 26 doc.add(new Field("modifydate",Long.toString(file.lastModified()),Field.Store.YES,Field.Index.NOT_ANALYZED_NO_NORMS )); 27 //doc.add(new Field("size",getSize(file.length()),Field.Store.YES,Field.Index.NOT_ANALYZED_NO_NORMS)); 28 29 doc.add(new NumericField("size",Field.Store.YES,true).setLongValue(getSize(file.length()))); 30 doc.add(new NumericField("score2",Field.Store.YES,true).setDoubleValue(Math.random())); 31 doc.add(new Field("path",file.getAbsolutePath(),Field.Store.YES,Field.Index.NOT_ANALYZED_NO_NORMS)); 32 //doc.add(new Field("content",new FileReader(file))); 33 //使用Tika读取文件内容并建立分词 34 doc.add(new Field("content",new StringReader(tika.parseToString(file)))); 35 36 writer.addDocument(doc); 37 } 38 } 39 catch(Exception ex){ 40 ex.printStackTrace(); 41 } 42 finally{ 43 try { 44 writer.close(); 45 } catch (CorruptIndexException e) { 46 e.printStackTrace(); 47 } catch (IOException e) { 48 e.printStackTrace(); 49 } 50 } 51 }