zoukankan      html  css  js  c++  java
  • 对爬虫的认知

    ####

    一个高级的爬虫工程师,和一个只会requests的爬虫工程师,区别在什么地方?

    第一,逆向的能力,你能爬的,别人爬不了,

    第二,你能提供一个高并发的方法,别人爬可能也能爬,但是你爬的更快,

    这就是这两点,也就是你能做到别人做不到的事情,

    试想,一个能日爬取千万的爬虫工程师和一个日爬取几十万或者百万的爬虫工程师,自然不是一个级别,自然不是一个量级,

    ####

    爬虫工程师

    必须具备两个能力,

    1,写代码的能力,工程能力,分布式,性能,大量数据,

    2,反爬能力,包括js逆向,安卓逆向,ip反爬,验证码反爬,等,

    ###

    1,爬虫真的是一个全栈的东西,

    需要对系统有研究,爬虫掌握的技术面比较宽,不需要一定对某一个领域研究的非常的深入,

    你研究的这么深入,何必做爬虫呢,

    你做js很厉害,就去开发node.js去了,

    你做安卓逆向很厉害,那直接就去做安全工程师了,

    所以你掌握的面宽,每一个都知道怎么去弄,你就是一个很厉害的人了,

    爬虫真的是一个神奇的岗位,

    爬虫很厉害的人,都不去面试了,很多大公司会找他们去做爬虫,做大规模抓取,他们都是逆向很厉害的人,其实公司里面的爬虫真的没有什么,只是做特定的事情,

    他们会抓取国外的Facebook这样的平台, 把数据抓完,会有人买他们的数据,卖他们的数据,可能会有几百万,

    但是这种会有法律风险,爬虫注意不要抓竞争对手的公司,你抓他们,他们就要搞你,现在爬虫被抓的基本都是属于这种,

    另外就是不要抓取法律禁止的,比如手机号,邮箱,隐私信息这样的,其他公开的都是可以抓的,

    2,不要给我说你有多少年经验,

    而是告诉我这几年你干了什么?学了什么?

    3,爬虫框架的一个大的问题就是没有解决反爬的问题,

    大公司都是有自己的爬虫框架的,比如一天爬取几百万这样的,都是自己写的框架

    因为你改别人的框架,还是不如自己写,

    4,爬虫你要理清楚自己的技术路线,

    5,逆向要你从头开始学习,汇编,学习c语言, 这个不可能的事情,

    大学都是要学一年,

    6,现在培训最重要的是掌握这个方法论,掌握了这个之后还是要自己学学习,实践,

    如果能爬虫+Django,爬虫+flask,scrapy+flask,scrapy+Django,那就完美的解决问题了

    使用Scrapy+MySQL+Flask采集存储并展示豆瓣电影TOP250数据

    利用Flask+Scrapy+Vue实现前端输入网址,后端开启爬虫

    python Flask+scrapy+人工智能 实现高性能搜索引

    python爬虫监控平台_scrapy-monitor,实现爬虫可视化,监控实时状态

    Python疫情监控实战/爬虫/Flask/Echarts/MySQL数据库/Linux

    用爬虫和Flask打造属于自己的电影网站,完整教程送上!

    这些大多数,还是用数据库作为媒介的两个项目,

    dingdian: Python爬虫和Flask实现小说网站

    基于flask框架的高校舆情分析系统_续写不尽的未来-CSDN博客

    Python : 基于爬虫+Flask实现就业招聘岗位数据分析可视化

    flask+vue实现数据可视化平台

    flask+APScheduler 任务调度,计划任务,定时任务

    https://github.com/junpengxu/Apollo/tree/dev

    flask+vue实现爬虫监控系统

    我需要一个一个的攻克,这是做事的逻辑,

  • 相关阅读:
    PYTHON lambda表达式
    PYTHON 写函数,检查传入字典的每一个value的长度,如果大于2,那么仅保留前两个长度的内容,并将新内容返回给调用者
    PYTHON 写函数,检查获取传入列表或元组对象的所有奇数位索引对应的元素,并将其作为新列表返回给调用者
    PYTHON 写函数,检查传入列表的长度,如果大于2,那么仅保留前两个长度的内容,并将新内容返回给调用者
    PYTHON 写函数,检查用户传入的对象(字符串、列表、元组)的每一个元素是否含有空内容。
    PYTHON isinstance语法
    PYTHON 写函数,计算传入字符串中【数字、字母、空格、以及其他的个数】
    杂题之 一行式子求网页页数
    带头节点的单链表的插入操作优化
    找出唯一出现一次的数
  • 原文地址:https://www.cnblogs.com/andy0816/p/15098314.html
Copyright © 2011-2022 走看看