zoukankan      html  css  js  c++  java
  • taobao 爬虫基本思路分享

    taobao 爬虫基本思路分享
    原创置顶 yellowhatgood 最后发布于2016-08-17 17:39:58 阅读数 7236 收藏
    展开
       关于taobao 爬取 下面做一个分享,大家一起研究

       1. taobao, tmall 店铺数据
                    
         在官网上我们可以通过 search 接口 (https://shopsearch.taobao.com/search?app=shopsearch&q=iphone )获取前 1020 页数据,界面展示是 100页数据 每页数据 20条,即2000条,现在通过
         
     

       2. item 接口(又称之为 商品接口 json) 
         该接口可以快速的获取店铺商品信息,获取店铺是第 1 步,第2步通过该 接口获取所有店铺商品信息, 以下展示 2 个接口
         (1. old : http://s.m.taobao.com/search?m=api4h5&nick=%E7%92%90%E7%92%90%E5%98%89%E5%98%89&n=40&page=1 ) // 通过店铺 昵称
          (2. new : http://api.s.m.taobao.com/search.json?m=shopitemsearch&sellerId=263817957&n=40&page=1  ) // 通过卖家 sellerId 
         
        以上两个接口可以很轻松的返回店铺所有商品数据,这样对收集店铺数据就显的十分重要,为进一步获取 sku 数据打下关键的基本,他是一个 一对多接口 (一个接口多对数据)

         

       3. sku 数据 (json 数据)
         sku 数据即 detail 数据,在这里可以获取商品的所有信息 价格,库存,销量 ,运费等信息,我们先看一个 pc 端接口
         1. pc ( https://mdskip.taobao.com/core/initItemDetail.htm?tmallBuySupport=true&itemId=itemId ) // itemId 即上面获取的 店铺 items 所有数据 
            这个接口直接访问不行,需要添加一定的 http 头消息 如 Referer, UpgradeInsecureRequests , CacheControl 等信息,启用 tls 请求即可 返回 json 数据
                  
         2. mobile 1 ( https://hws.m.taobao.com/cache/wdetail/5.0/?id=39783398037 )    
          这是一个非常高效的接口 cache 接口,未有任何校验直接取数 如下  
              
           这个接口直接请求即可获取详细的 json 数据, 这里包括 商品价格,sku 信息,销量, 运费, 支付方式,店铺,促销信息等        
     
         3. mobile 2 (tmall: https://detail.m.tmall.com/item.htm?id=39783398037   ) 
           该接口很正常的返回页面数据,在页面数据中,包函完整的 sku 全部信息,这是直接可以解析与处理的,访问一个手机页面未有什么校验直接即可以获取 建议添加用户信息检验与加密算法
                  
       
       4. app client 
       在早期 taobao app 中,曾经有人破解出收费 app key  
        appKey = "12278902"; 
        secret = "744e7d7e7028b817bd9f8f3c6f28a8d3";  

       通过这个 appkey 我们可以大方的使用 open.api 了如获取以下信息
       

     5.关于动态IP 

       现在通过与运营商合作可以方便的建立N多 ADSL接入服务,在机房动态的获取B段的IP池,对各电商平台进行数据爬取
     
      总结: 通过以上接口我们就可以很方便的快速的获取 taobao ,tmall 平台开放的一些数据,在IP足量的情况下,做到即时更新,类似 双11 数据直播平台一样,展现数据销量分部等业务数据模型

      keyword -> shop -> items -> sku  以这样的爬取路径 可以获取大量的实时数据, 在密算法与请求交互认证中 注意 https, tls,自动cookies 等,自动话的爬取处理只能在一定程度上模拟用户操作. 在 ip 被屏临界值 蔽时 做 ip 切换。
    ————————————————
    版权声明:本文为CSDN博主「yellowhatgood」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/yellowhatgood/article/details/52233036

  • 相关阅读:
    算法入门7:分支限界法
    算法入门5:贪心算法
    算法入门4:动态规划
    变量
    Java标识符
    Java中的关键字
    Groovy 配置环境变量
    Robot Framework学习笔记(一)------环境搭建
    关于谷歌浏览器(chrome)的一些好用的插件推荐
    关于UML方法学图中类之间的关系:依赖,泛化,关联
  • 原文地址:https://www.cnblogs.com/alex-13/p/12500233.html
Copyright © 2011-2022 走看看