泛采集技术 - 走看看

zoukankan html css js c++ java

泛采集技术

原文地址：http://www.qiufeng.org/qi_ta_ji_shu/fan_cai_ji_ji_shu_de_yi_xie_xin_xi_shou_ji

什么是泛采集：泛采集无需编写采集规则，可以通过设定的关键词，通过搜索引擎采集互联网上众多网站的内容。

国外也叫 Get Main Content, Extract Useful Text from Arbitrary HTML 等.

demo:

http://219.153.39.48/txt/
http://www.lietu.com/extract/
http://www.woniu.us/get_content_demo/

Some source code:

http://www.cnblogs.com/onlytiancai/archive/2008/04/12/getmaincontent.html
http://www.elias.cn/MyProject/ExtMainText
http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx

http://blog.csdn.net/hzxdark/article/details/3565929

国外的一些信息:
算法1
原文: http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/
翻译: http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx

API:
http://www.alchemyapi.com/api/text/

Wiki:
http://wisdombase.net/wiki/index.php?title=Html_Content_Extraction_Resources

查看全文

相关阅读:
黑白逆向编程课程笔记 8.静＆动态地址＆偏移
 黑白逆向编程课程笔记 7.CE使用(2)
黑白逆向编程课程笔记 6.CE使用(1)
传奇资源
 分布式——分布式发号器
 SpringBoot——属性注入
 SpringBoot——启动与自动配置类查找
 Mybatis——Spring事务实现
 SpringAOP——事务实现
 Linux——IO技术

原文地址：https://www.cnblogs.com/fancing/p/2442758.html

Copyright © 2011-2022 走看看