zoukankan      html  css  js  c++  java
  • 爬虫八之爬取京东商品信息

    爬取京东关键字商品的title, image以及price.

    注:代码放在github上,这里只讨论出现的问题和解决办法。

    本来是爬取淘宝的,但是淘宝在搜索关键词时要登陆;使用selenium我还不会添加cookies, 因此比较麻烦,所以转而爬取不需要登陆的京东。


    爬取时,应安装好需要的包,以及需要有一个Chrome浏览器, 以及配置好Chromedriver.


    京东网页有个问题就是,如果你不下拉,那么商品图片将不会加载。

    解决办法:

    在读取每一个商品前,加入以下代码:

    browser.maximize_window()
    time.sleep(0.05)
        for i in range(0, 100):
            time.sleep(0.07)
            js = "window.scrollTo(0,%s)" % (i*100)
            browser.execute_script(js)
    

    该代码可实现自动向下滚动窗口。循环里的sleep time 要根据自己网速来调整,如果网速略慢则需要将时间调大点;


    我只是将图片url保存在了本地,并没有读取及下载,因为我担心大量下载也会被京东反爬,目前我还没有防止反爬比较好的技巧。

    在运行程序时,会跳出Chrome浏览器运行。如果不想让其跳出,可使用PhantomJS; 我没有尝试,仅提一下有该方法。


    代码链接:

    https://github.com/GhostSteven/Crawler/tree/master/JD

  • 相关阅读:
    session的一个问题
    (Struts)ActionForm类及表单数据验证
    javaee添加验证码
    struts的上传和下载
    logic标签用法
    jstl标签用法
    bean标签
    /WEB-INF/userManage.jsp(31,82) Unterminated ${ tag
    自定义EL
    jstl
  • 原文地址:https://www.cnblogs.com/guiguiguoguo/p/11287132.html
Copyright © 2011-2022 走看看