zoukankan      html  css  js  c++  java
  • 爬虫

    作为Python的初学者,爬虫肯定是入门的不二选择,既能熟悉语法,又能通过爬虫了解一定的网络编程知识。

    标网站:www.mmjpg.com

    如果你现在已经打开了这个网站,求求你们,把持住自己!!!

    在这里还是要推荐下我自己建的Python开发学习群:628979297,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴

    爬虫的原理

    现在,让我们踩下油门,开始飙车!!!

    既然我们要基于面向对象的思想写这个爬虫,那么我们就需要把这个爬虫写成一个类。

    首先我们先来抓取所有妹子的url

    在get_page_urls()中我们首先判断输入的页码(这里我们就不做输入负数的判断了),在获取到page_num后拼接出所有要爬取的页面url

    打开首页,调出开发者工具

    注意力不要放在妹子上!!!

    我们定位到妹子的url,我们可以很容易的写出妹子url的xpath。

    调出开发者工具(注意力不要放在妹子上!!!)

    两种解决办法:

    下面我们使用Selenium来模拟点击“全部图片”的按钮,来获取所有图片的url了。

    这时我们调出开发者工具,我们就看到了所有图片的url了。

    现在我们就可以获得每张图片的url了,顺便获取一下妹子的标题。

    下载图片的方法

    全部代码

    小礼物走一



    作者:python达人
    链接:https://www.jianshu.com/p/be655039d6dd
    來源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
  • 相关阅读:
    [LeetCode] Maximum Depth of Binary Tree
    C++11中常用的几个简写
    [LeetCode] Word Break
    [LeetCode] Linked List Cycle II
    sizeof
    string和整形数据之间的转换
    ASCII
    [LeetCode] Linked List Cycle
    机器学习总结-线性回归
    推荐系统初探
  • 原文地址:https://www.cnblogs.com/123fantao/p/8909602.html
Copyright © 2011-2022 走看看