zoukankan      html  css  js  c++  java
  • 今日架构

    1 0-对db单独写一个类,却对proxy不单独设类,不公平!
    2 1-情景
    3     python-scrapy-proxy+ADSL
    4     grab-AMZglobalSite:reviews,ranking,.......
    5     当前代码结构:dbTool.py metaSpider.py  reviewsSider.py,rankingSider.py,......
    6         在metaSpider.py类中实现dbTool.py类(从db获取下一个grab-url),def proxy1(),def proxy2()(多个处理代理的方法),在“一线实现具体采集业务”的xyzSider.py中实现metaSpider.py类
    7 2-tmpSolution
    8     "是啊,我也想把proxy搞出去啊,可是目前写不出来啊"
     1 0-这个字段加不加?
     2 1-情景
     3     AMZglobalSite商品详情页-grab评分与当前总评分/4分比较得出差评,将采集软件切换到python,进入url是通过站点(uk,fr)+asin,php分析采集数据,给email至运营订阅者。
     4     
     5     在用采集软件的同学处理是未发现一个现象“如phone case 商品页的商品主体区域的右上角,不同颜色的商品可能是不同的asin,此外有size属性的商品不同size的asin可能也是不同的,而评论区的reviews是这些商品reviews的集合,而不仅仅是page-url中的asin”
     6     上述现象进一步导致给运营订阅者的email中的“差评用户id-订单id-asin”三者不匹配
     7     
     8     python同学将单个page-url中的每一条reviews的asin均存入数据库,新加‘new-asin’字段。
     9     因为‘new-asin’才是和每一条reviews准确对应的‘asin’,导致php同学将要修改grab-data的分析脚本和发送email相关的脚本。
    10     
    11 2-tmpSolution
    12 
    13     db不新加字段,php代码不修改:在python 写入数据库的入口过滤掉reviews-asin与pagre-url-asin不同的数据,不入库,以此来保证入库数据的准确性和避免oldClode的修改。
  • 相关阅读:
    Cannot load php5apache2_4.dll into server
    PHP合并数组
    为什么 echo 3 . print(2) . print(4) . 5 . 'c'的结果是45c2131
    PHP数据类型
    PHP变量
    SSH Key
    VMware Tools安装教程
    nginx: [emerg] getpwnam("nginx") failed
    JS 生成随机数
    JS 操作 cookie
  • 原文地址:https://www.cnblogs.com/rsapaper/p/6284930.html
Copyright © 2011-2022 走看看