commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。
Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。
CommonCrawl Project Repository — More...
http://www.commoncrawl.org
master分支代码最近更新:2013-02-14