zoukankan      html  css  js  c++  java
  • 今日架构

    1 0-对db单独写一个类,却对proxy不单独设类,不公平!
    2 1-情景
    3     python-scrapy-proxy+ADSL
    4     grab-AMZglobalSite:reviews,ranking,.......
    5     当前代码结构:dbTool.py metaSpider.py  reviewsSider.py,rankingSider.py,......
    6         在metaSpider.py类中实现dbTool.py类(从db获取下一个grab-url),def proxy1(),def proxy2()(多个处理代理的方法),在“一线实现具体采集业务”的xyzSider.py中实现metaSpider.py类
    7 2-tmpSolution
    8     "是啊,我也想把proxy搞出去啊,可是目前写不出来啊"
     1 0-这个字段加不加?
     2 1-情景
     3     AMZglobalSite商品详情页-grab评分与当前总评分/4分比较得出差评,将采集软件切换到python,进入url是通过站点(uk,fr)+asin,php分析采集数据,给email至运营订阅者。
     4     
     5     在用采集软件的同学处理是未发现一个现象“如phone case 商品页的商品主体区域的右上角,不同颜色的商品可能是不同的asin,此外有size属性的商品不同size的asin可能也是不同的,而评论区的reviews是这些商品reviews的集合,而不仅仅是page-url中的asin”
     6     上述现象进一步导致给运营订阅者的email中的“差评用户id-订单id-asin”三者不匹配
     7     
     8     python同学将单个page-url中的每一条reviews的asin均存入数据库,新加‘new-asin’字段。
     9     因为‘new-asin’才是和每一条reviews准确对应的‘asin’,导致php同学将要修改grab-data的分析脚本和发送email相关的脚本。
    10     
    11 2-tmpSolution
    12 
    13     db不新加字段,php代码不修改:在python 写入数据库的入口过滤掉reviews-asin与pagre-url-asin不同的数据,不入库,以此来保证入库数据的准确性和避免oldClode的修改。
  • 相关阅读:
    GDI绘图1——自定义函数
    GDI绘图1——枚举
    打箱子&地形&鼠标点击移动总结
    使用Playmaker1——基础使用
    图形用户编程工具集比较--转
    Java中抽象类和接口的区别
    myeclipse安装 配置Maven3
    在Ubuntu上安装hadoop2.2.0的一些记录
    Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程
    获得hadoop源码网址
  • 原文地址:https://www.cnblogs.com/rsapaper/p/6284930.html
Copyright © 2011-2022 走看看