zoukankan      html  css  js  c++  java
  • Python爬虫实践入门,超详细

     

    1、前言

    学习Python二个多月啦,周末时开始兴趣学习爬虫,虽然有点概念,但是也折腾了大半天,下面就开始简要记录一下吧。

    2、需要的准备

    • Python:需要基本的python语法基础
    • requests:专业用于请求处理,requests库学习文档中文版
    • lxml:其实可以用pythonth自带的正则表达式库re,但是为了更加简单入门,用 lxml 中的 etree 进行网页数据定位爬取。
      这里特别注意:不管你是为了Python就业还是兴趣爱好,记住:项目开发经验永远是核心,如果你没有2020最新python入门到高级实战视频教程,可以去小编的Python交流.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,里面很多新python教程项目,还可以跟老司机交流讨教!

    通过pip安装 requests 和 lxml 库,在终端输入:

    pip install requests
    pip install lxml
    复制代码

    注:如果是安装到Python3就用pip3 install

    下载过程成功的输出:

    Collecting lxml
      Cache entry deserialization failed, entry ignored
      Downloading https://files.pythonhosted.org/packages/00/fd/5e65f293e366a63198dade275b886e5d24752367c2e67e3993023b0d58ef/lxml-4.2.3-cp36-cp36m-macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64.macosx_10_10_intel.macosx_10_10_x86_64.whl (8.7MB)
        100% |████████████████████████████████| 8.7MB 821kB/s 
    Installing collected packages: lxml
    Successfully installed lxml-4.2.3
    复制代码
    • 注: 如果安装过程遇到任何问题,请谷歌吧,如果网上找不到答案,也不要问我!找不到答案我直播吃翔!!!

    3、实践过程

    为了这过程有点兴趣,我找了一个美图的网站,爬虫了一波图片~

    实践爬虫的网站链接:https://www点aitaotu点com(注意,这不是打广告!)

    • 下载页面html内容:
        page = 'https://www点aitaotu点com/guonei/36350.html'
        data = requests.get(page).text
        dom = etree.HTML(data)
    复制代码
    • 解析(定位)元素:
        title_path = '//*[@id="photos"]/h1/text()'
        totalpage_path = '//*[@id="picnum"]/span[2]/text()'
        image_path = '//*[@id="big-pic"]/p/a/img'
    复制代码

    这里的xpath怎么获取,就是网页里面,打开开发者检查元素工具,在safari和chrome都有这个功能:

     注意:不管你是为了Python就业还是兴趣爱好,记住:项目开发经验永远是核心,如果你没有2020最新python入门到高级实战视频教程,可以去小编的Python交流.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,里面很多新python教程项目,还可以跟老司机交流讨教!

    本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

  • 相关阅读:
    poj 1113 Wall 凸包的应用
    NYOJ 78 圈水池 (入门级凸包)
    Monotone Chain Convex Hull(单调链凸包)
    poj Sudoku(数独) DFS
    poj 3009 Curling 2.0(dfs)
    poj 3083 Children of the Candy Corn
    Python join()方法
    通过FISH和下一代测序检测肺腺癌ALK基因融合比较
    华大病原微生物检测
    NGS检测ALK融合大起底--转载
  • 原文地址:https://www.cnblogs.com/chengxuyuanaa/p/12781238.html
Copyright © 2011-2022 走看看