zoukankan      html  css  js  c++  java
  • 三分钟教你入门python爬虫

       这是一篇 Python 入门指南,针对那些没有任何编程经验,从零开始学习 Python 的同学。不管你学习的出发点是兴趣驱动、拓展思维,还是工作需要、想要转行,都可以此文作为一个参考。
    在这个信息爆炸的时代,以 “Python入门” 为关键字搜索出的结果成千上万。不少小白选手难免会东一榔头西一棒槌,最终看了很多文章,却仍没跨过新手那道门槛。
    只要你想学,认真学,就肯定有所收获!
    首先!你要对爬虫有个明确的认识,这里引用毛主席的思想:
    在战略上藐视:
    • “所有网站皆可爬”:互联网的内容都是人写出来的,而且都是偷懒写出来的(不会第一页是a,下一页是8),所以肯定有规律,这就给人有了爬取的可能,可以说,天下没有不能爬的网站
    • “框架不变”:网站不同,但是原理都类似,大部分爬虫都是从 发送请求——获得页面——解析页面——下载内容——储存内容 这样的流程来进行,只是用的工具不同
    在战术上重视:
    • 持之以恒,戒骄戒躁:对于初学入门,不可轻易自满,以为爬了一点内容就什么都会爬了,爬虫虽然是比较简单的技术,但是往深学也是没有止境的(比如搜索引擎等)!只有不断尝试,刻苦钻研才是王道!(为何有种小学作文即视感)
     
    然后,你需要一个宏伟的目标,来让你有持续学习的动力(没有实操项目,真的很难有动力)
    我要爬整个豆瓣!... 我要爬整个xx社区! 我要爬知乎各种妹子的联系方式*&^#%^$#

    1、网页的基本知识:

    基本的HTML语言知识(知道href等大学计算机一级内容即可) 理解网站的发包和收包的概念(POST GET) 稍微一点点的js知识,用于理解动态网页(当然如果本身就懂当然更好啦)

    2、一些分析语言,为接下来解析网页内容做准备

    2020最新python学习资源分享:1156465813

    3、接着,你需要一些高效的工具来辅助

    (同样,这里先了解,到具体的项目的时候,再熟悉运用)
    3.1 F12 开发者工具:
    • 看源代码:快速定位元素
    • 分析xpath:1、此处建议谷歌系浏览器,可以在源码界面直接右键看
    3.2 抓包工具:
    • 推荐httpfox,火狐浏览器下的插件,比谷歌火狐系自带的F12工具都要好,可以方便查看网站收包发包的信息
    3.3 XPATH CHECKER (火狐插件):
    非常不错的xpath测试工具,但是有几个坑,都是个人踩过的,,在此告诫大家: 1、xpath checker生成的是绝对路径,遇到一些动态生成的图标(常见的有列表翻页按钮等),飘忽不定的绝对路径很有可能造成错误,所以这里建议在真正分析的时候,只是作为参考 2、记得把如下图xpath框里的“x:”去掉,貌似这个是早期版本xpath的语法,目前已经和一些模块不兼容(比如scrapy),还是删去避免报错
    3.4 正则表达测试工具:在线正则表达式测试 ,拿来多练练手,也辅助分析!里面有很多现成的正则表达式可以用,也可以进行参考!
     
     
    为了可以给大家提出更多的学习建议,这是我建立的Python学习圈子:1156465813。在彼此的沟通可以我们可以得到很多学习经验,学习始终靠自己,当你掌握了一个好的学习方法,系统的学习方式,你会发现其实学习Python并没有那么难,有问题在群里随时问我,群内含有不少的学习资料,大家可以一起讨论问题,共同进步。
  • 相关阅读:
    Exadata存储节点的CPU限制成功了没?
    如何减少Exadata计算节点CPU的Core数量
    如何选择适合你的HTAP数据库?
    小知识:Oracle中的层次查询
    小知识:使用MOS下载Oracle介质快速参考
    小知识:Flex ASM特性对集群资源显示的影响
    javaWeb request请求乱码、response响应中文乱码一站式解决方案
    java 文件File与byte[]数组相互转换的两种方式
    pr 如何调高导出视频的清晰度?
    pr 剪辑视频之剃刀用法
  • 原文地址:https://www.cnblogs.com/shuchongzeishuai/p/13830481.html
Copyright © 2011-2022 走看看