完工一个小东西,有需要的可以预订了啊,价格可商议:
可以根据任意给定的网址判定是否内容页或网址列表页或无任何价值页
可以根据任意给定的域名分析整站,分析出哪些是有价值的内容页,并自动抽取内容(标题,正文内容),同时进行中文分词,并自动生成抽取规则模板
提取正文可不是简单的解析哦,是自动识别真正的正文内容哦!
识别准确率在99%以上,可大规模分布式部署在Linux集群中
可以根据任意给定的网址判定是否内容页或网址列表页或无任何价值页
可以根据任意给定的域名分析整站,分析出哪些是有价值的内容页,并自动抽取内容(标题,正文内容),同时进行中文分词,并自动生成抽取规则模板
提取正文可不是简单的解析哦,是自动识别真正的正文内容哦!
识别准确率在99%以上,可大规模分布式部署在Linux集群中