zoukankan      html  css  js  c++  java
  • 亚马逊云平台采集转单机采集实现

        实验室的一个项目采集亚马逊的商品数据,包括单体和变体采集。最开始的一个demo是单机版的java采集软件,后面根据导师的要求,实现了云端分布式采集——实验室提供采集设备资源,多机分布式多线程采集,用户只需在前台配置所需采集的URL即可,不需要挂机采集,从而给用户提供云端的采集服务。

        项目组在实现的其中遇到了很多的技术难点,包括分布式架构的搭建,采集逻辑流程的设计以及亚马逊验证码的识别,代码的优化,经过了反复的研究,经过了几个月的测试,现已经基本实现主体功能,采集效率,客户也很满意。曾经在一天中,最大的采集数量达到将近两千万。这也是我们没有预料到的。

         前面的工作主要给用户提供的是云端的采集服务。现在又提出一个需求,能否编写一套单机版的亚马逊采集,直接提供给用户采集使用,并且需要受到我们服务器的权限限制。初步的方案是使用JavaFX构建一个Java桌面应用,里面的采集核心流程跟之前的分布式采集完全一样。

           还有另外一种思路是按照爬盟众包采集新浪微博的形式,我们给用户分配采集任务,裸机接受采集任务,众包的形式采集数据。但是这个方案跟我们目前的需要不符合,可以不考虑。

  • 相关阅读:
    简单数列极限证明
    既然已经半退役了,就写点新东西吧
    快速幂(整数+实数)
    D. Constant Palindrome Sum 差分+思维
    排序网络
    ClickHouse数据同步
    C++ 复习
    使用mac查看iphone uuid方法
    15. 蓝绿发布导致需求不能验证
    通过反射获取对象的属性名、属性值
  • 原文地址:https://www.cnblogs.com/zeze/p/6181871.html
Copyright © 2011-2022 走看看