zoukankan      html  css  js  c++  java
  • Python爬虫

    爬虫又称网络蜘蛛,是代码获取资料的一种方式。

    常用库:requests,bs4,lxml,fake_useragent。

    通常运行模式:

      1、发起请求

        通常可用requests发起各类的网络请求。

      2、获取数据

        通常可用requests的get函数获取大部分网页。

      3、解析数据

        解析方式:

          正则表达式

          beautifulsoup

          xpath

          css选择器

      4、保存数据。

        通常可保存为csv,txt或者存入数据库。

    本人学习的网站:B站(问就是一个很好的学习网站),木下瞳爬虫(入门实战,强推!)。

    从零入门:五天速成教程

    _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _(手动分割线)

    博客小白,个人记录,很多待补充,想到再慢慢修改,欢迎批评指正。

    摘自:网络上很多的大神。侵删。。

    转载请附原文链接以及作者,谢谢。

    一个啥都想整小白白白。。。
    一个啥都想整小白白白。。。
  • 相关阅读:
    git 强制覆盖本地
    .gitignore 配置
    Git fetch和git pull的区别
    时间函数 date strtotime
    page show
    prepare PDO
    Lucene搜索方法总结
    lucene索引日期和数字
    lucene 3.0.2 + 多文件夹微博数据(时间,微博)构建索引
    lucene 使用注意
  • 原文地址:https://www.cnblogs.com/sky-sugar/p/14360000.html
Copyright © 2011-2022 走看看