国外电商网站snapdeal爬取流程

zoukankan html css js c++ java

国外电商网站snapdeal爬取流程

首页爬取

1.首页获取各个目录的url 如所有优惠all_offers的其中urlhttps://www.snapdeal.com/products/men-apparel-shirts?sort=plrty

2.访问他的url获取bcrumbLabelId是由于js简单渲染出来的在id="labelId" value="(.*?) 中,如果取不到值该页面为一个优惠卷页面或者其他页面

3.url重新拼接http://www.snapdeal.com/acors/json/product/get/search/{bcrumbLabelId}/0/20 ,0为起始,20为取的条数(固定)

4.会获得一个商品的页面非json,其中<div class="jsNumberFound hidden">(.*?)</div> 获取他的总条数

如果起始页码<总条数,起始页码+20>总条数获得总条数-起始页码

如果起始页码>总条数返回的html页面其中一个标签内值为

5.可以通过正则或者xpath获取他的详情页的url

6.访问详情页url,返回的数据与页面显示的内容相同

如果是关键字搜索

1.访问https://www.snapdeal.com/search?keyword={搜索的内容}

2.批量http://www.snapdeal.com/acors/json/product/get/search/0/10/20?keyword={搜索的内容} 其中/0/20/20,0为固定,10为起始,20为取的条数(固定),

3.会获得一个商品的页面非json,其中<div class="jsNumberFound hidden">(.*?)</div> 获取他的总条数

如果起始页码<总条数,起始页码+20>总条数获得总条数-起始页码

如果起始页码>总条数返回的html页面其中一个标签内值为

4.可以通过正则或者xpath获取他的详情页的url

5.访问详情页url,返回的数据与页面显示的内容相同

思路都有了代码还难吗

查看全文

相关阅读:
android下socket编程问题：服务器关闭时，客户端发送请求的异常处理
 MySQL新建用户,授权,删除用户,修改密码
 jquery验证表单代码
 Incorrect key file for table '/tmp/#sql_46fd_0.MYI'; try to repair it
初试百度地图API
Android控件之GridView探究
 使用Intent调用内置应用程序
 消除SDK更新时的“https://dl-ssl.google.com refused”错误
 A folder failed to be renamed or moved--安装Android SDK的问题
 windows下搭建svn服务器

原文地址：https://www.cnblogs.com/pythonywy/p/12111169.html

国外电商网站snapdeal爬取流程

首页爬取

如果是关键字搜索

思路都有了代码还难吗