原文地址:http://www.qiufeng.org/qi_ta_ji_shu/fan_cai_ji_ji_shu_de_yi_xie_xin_xi_shou_ji
什么是泛采集:泛采集无需编写采集规则,可以通过设定的关键词,通过搜索引擎采集互联网上众多网站的内容。
国外也叫 Get Main Content, Extract Useful Text from Arbitrary HTML 等.
demo:
http://219.153.39.48/txt/
http://www.lietu.com/extract/
http://www.woniu.us/get_content_demo/
Some source code:
http://www.cnblogs.com/onlytiancai/archive/2008/04/12/getmaincontent.html
http://www.elias.cn/MyProject/ExtMainText
http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx
http://blog.csdn.net/hzxdark/article/details/3565929
国外的一些信息:
算法1
原文: http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/
翻译: http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx
API:
http://www.alchemyapi.com/api/text/
Wiki:
http://wisdombase.net/wiki/index.php?title=Html_Content_Extraction_Resources