zoukankan      html  css  js  c++  java
  • 国外电商网站snapdeal爬取流程

    首页爬取

    1.首页获取各个目录的url 如所有优惠all_offers的其中urlhttps://www.snapdeal.com/products/men-apparel-shirts?sort=plrty

    2.访问他的url获取bcrumbLabelId是由于js简单渲染出来的在id="labelId" value="(.*?) 中,如果取不到值该页面为一个优惠卷页面或者其他页面

    3.url重新拼接http://www.snapdeal.com/acors/json/product/get/search/{bcrumbLabelId}/0/20 ,0为起始,20为取的条数(固定)

    4.会获得一个商品的页面非json,其中<div class="jsNumberFound hidden">(.*?)</div> 获取他的总条数

    如果起始页码<总条数,起始页码+20>总条数 获得总条数-起始页码

    如果起始页码>总条数 返回的html页面其中一个标签内值为

    5.可以通过正则或者xpath获取他的详情页的url

    6.访问详情页url,返回的数据与页面显示的内容相同

    如果是关键字搜索

    1.访问https://www.snapdeal.com/search?keyword={搜索的内容}

    2.批量http://www.snapdeal.com/acors/json/product/get/search/0/10/20?keyword={搜索的内容} 其中/0/20/20,0为固定,10为起始,20为取的条数(固定),

    3.会获得一个商品的页面非json,其中<div class="jsNumberFound hidden">(.*?)</div> 获取他的总条数

    如果起始页码<总条数,起始页码+20>总条数 获得总条数-起始页码

    如果起始页码>总条数 返回的html页面其中一个标签内值为

    4.可以通过正则或者xpath获取他的详情页的url

    5.访问详情页url,返回的数据与页面显示的内容相同

    思路都有了代码还难吗

  • 相关阅读:
    Tiny模板引擎之开发工具
    Tiny框架应用实践之Tiny社区
    TINY框架:组件化的J2EE开发框架
    TinyRMI---RMI的封装、扩展及踩到的坑的解决
    新手如何入门
    从应用示例来认识Tiny框架
    图形化插件对Eclipse的版本要求
    可不可以在局域网编译TINY?
    批量创建的方法
    不在框架中,利用Django的models操作
  • 原文地址:https://www.cnblogs.com/pythonywy/p/12111169.html
Copyright © 2011-2022 走看看