zoukankan      html  css  js  c++  java
  • Python爬虫

    爬虫又称网络蜘蛛,是代码获取资料的一种方式。

    常用库:requests,bs4,lxml,fake_useragent。

    通常运行模式:

      1、发起请求

        通常可用requests发起各类的网络请求。

      2、获取数据

        通常可用requests的get函数获取大部分网页。

      3、解析数据

        解析方式:

          正则表达式

          beautifulsoup

          xpath

          css选择器

      4、保存数据。

        通常可保存为csv,txt或者存入数据库。

    本人学习的网站:B站(问就是一个很好的学习网站),木下瞳爬虫(入门实战,强推!)。

    从零入门:五天速成教程

    _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _(手动分割线)

    博客小白,个人记录,很多待补充,想到再慢慢修改,欢迎批评指正。

    摘自:网络上很多的大神。侵删。。

    转载请附原文链接以及作者,谢谢。

    一个啥都想整小白白白。。。
    一个啥都想整小白白白。。。
  • 相关阅读:
    ZooKeeper系列
    CST和GMT时间的区别
    ZooKeeper系列之二:Zookeeper常用命令
    分布式服务框架 Zookeeper -- 管理分布式环境中的数据
    ZooKeeper资料
    分布式选举算法
    初识ZooKeeper与集群搭建实例
    原子广播
    Apache ZooKeeper
    工作流引擎
  • 原文地址:https://www.cnblogs.com/sky-sugar/p/14360000.html
Copyright © 2011-2022 走看看