zoukankan      html  css  js  c++  java
  • 正文抽取

    如果是做正文抽取的话,想要做到很精准的效果是难的(尤其是准确剔除掉正文周边内容),尤其是来自一些不正规的站点网页。我能找到的相关开源产品有:boilerpipe、goose、jReadability、roadrunner(这个是抽模版的),还有一个忘记名字了,他们的效果都算不上太好(对正规的新闻站点会好些)。我自己实现了一个正文抽取的程序(也是很复杂的说,就别要代码了,暂时没有开源计划),可供测试的页面是:http://www.tuicool.com/te 。实际上,现在的实现算法不是我最初的想法,如果能基于浏览器内核分析出页面布局以及内容信息,对页面主体内容(不单单限于正文内容)的抽取效果会更好,而应用场景就更多了,这方面的经典算法就是微软研究院的VIPS,基于它也衍生了一堆论文。

    http://www.v2ex.com/t/29123

    创业-育森:提取web页面的正文(主体文本内容)不知道有没有什么好的算法或者是否有比较好的开源工具包呢!@金钱松 @TB本因 @梁斌penny @张某_ICT @sunli1223 @曾宪杰_华黎 @空谷松籁 @行空望远
    1. 大可不加冰_lonegunman

      以前中科计算所有一个控件很强悍,可以干净地剔除广告。
    2. 创业-育森

      回复@张某_ICT:好的,继续研究一下!
    3. 郑昀

      搜索基于文本密度的自动正文提取算法即可。或者搜索“Readability+你熟悉的开发语言名字+port”即可,如“Readability+python+port”。
    4. sunli1223

      参考这个插件的实现http://t.cn/a8acZU
    5. 张成_ICT

      这个真不了解。我用的一个evernote插件,挺不错的。
    6. 空谷松籁

      回复@创业-育森: 我没用过。你可以看看文档。他就是lucene的子项目,就是做文本抽取的。html肯定支持。
    7. 空谷松籁

      回复@创业-育森:org.apache.tika.parser.html Class BoilerpipeContentHandler : Uses the boilerpipe library to automatically extract the main content from a web page.
    8. 创业-育森

      回复@空谷松籁:这个能识别正文内容吗?去除网页上的其他的一些广告链接之类的噪音。。
    9. 创业-育森

      回复@空谷松籁:3Q,收到,研究一下!
    10. 空谷松籁

      Apache Tika - a content analysis toolkit
    11. 创业-育森

      回复@刘一丁Odin:3Q,研究一下!
    12. 刘一丁Odin

      有个叫readability的项目,不过是js写的,估计得改……http://t.cn/hbwq0C

  • 相关阅读:
    [转]Java连接oracle数据库实例
    class.forname().newInstance()
    使用jdbc调用Oracle报错:ORA00911 无效字符
    使用HttpWebRequest需要设置Accept和UserAgent属性
    IIS应用程序池(进程池)假死问题解决办法
    windows调试工具集
    广东电信最新DNS更新了
    Web2.0样式
    一个开源的flash幻灯片展示源码文件
    Microsoft Visio2003 简体中文版 下载
  • 原文地址:https://www.cnblogs.com/lexus/p/2505483.html
Copyright © 2011-2022 走看看