V2EX › 花了3个晚上，把readability最新的1.7.1转成了python版的 - 走看看

zoukankan html css js c++ java

V2EX › 花了3个晚上，把readability最新的1.7.1转成了python版的

如
http://www.v2ex.com/t/29123#reply36
果是做正文抽取的话，想要做到很精准的效果是难的（尤其是准确剔除掉正文周边内容），尤其是来自一些不正规的站点网页。我能找到的相关开源产品有：boilerpipe、goose、jReadability、roadrunner（这个是抽模版的），还有一个忘记名字了，他们的效果都算不上太好（对正规的新闻站点会好些）。我自己实现了一个正文抽取的程序（也是很复杂的说，就别要代码了，暂时没有开源计划），可供测试的页面是：http://www.tuicool.com/te 。实际上，现在的实现算法不是我最初的想法，如果能基于浏览器内核分析出页面布局以及内容信息，对页面主体内容（不单单限于正文内容）的抽取效果会更好，而应用场景就更多了，这方面的经典算法就是微软研究院的VIPS，基于它也衍生了一堆论文。

查看全文

相关阅读:
java List接口
 java 迭代器概述和ArrayList迭代， Iterator是接口
 java ArrayList类，集合， Collection是接口
 java Calendar类
 java Date类 DateFormat类 SimpleDateFormat类
 java Random类 System类 BigInteger类 BigDecimal类
 java Pattern类
 java 正则表达式
 【Stanford Online】Engineering: Algorithms1 NO.14 Hashing: the basics
【Stanford Online】Engineering: Algorithms1 NO.13 Balanced binary search trees

原文地址：https://www.cnblogs.com/lexus/p/2390802.html

Copyright © 2011-2022 走看看