zoukankan      html  css  js  c++  java
  • 爬虫工程师JD归纳

    核心能力归纳

    负责:多平台信息的抓取,清洗和分析工作

    要求:

    • 熟悉常用开源爬虫框架,如 scrapy / pyspider
    • 了解基于Cookie的登录原理,熟悉常用的信息抽取技术,如正则表达式、XPath
    • 熟悉常见的反爬虫技术,有一定的对抗能力
    • 分布式爬虫架构经验*

    字节跳动 python爬虫工程师 22-40k

    负责:

    • 设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作,实时监控爬虫的进度和警报反馈
    • 网页信息和APP数据抽取、清洗、消重等工作

    要求:

    • 有扎实的算法和数据结构能力
    • 熟悉爬虫原理,熟悉常见的反爬虫技术
    • 掌握http协议,熟悉html、dom、xpath等常见的数据抽取技术
    • 有大规模数据处理、数据挖掘、信息提取等经验者优先

    小米 数据爬虫工程师 20-40k

    负责:

    • 负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作
    • 负责网页搜索的页面内容提取,搜索领域下的滤重(simhash/minhash)、聚类、反垃圾、页面分析、标签、分类器(贝叶斯/Bayes/LR/SVM)、数据挖掘等工作,提升平台的抓取效率
    • 参与爬虫核心算法和策略优化,熟悉采集系统的调度策略
    • 实时监控爬虫的进度和警报反馈

    要求:

    • 熟悉Linux系统,掌握Python等语言
    • 掌握网页抓取原理及技术,了解基于Cookie的登录原理,熟悉基于正则表达式、XPath、CSS等网页信息抽取技术
    • 熟悉整个爬虫的设计及实现流程,有大规模网页信息抽取开发经验,熟悉各种反爬虫技术,有分布式爬虫架构经验
    • 有链接分析(pagerank、trustrank)、特征提取(页面质量、权威度、topic、线性/非线性回归、LDA)等能力优先

    网易 爬虫工程师 12-24k

    负责:

    • 负责设计和开发通用爬虫系统,提取分析各种千形万态的平台页面内容;
    • 研究各种网站、链接的形态,发现它们的特点和规律;
    • 解决技术疑难问题,包括反反爬、压力控制等,提升网页抓取的效率和质量;

    要求:

    • 精通python、计算机网络,熟练使用多线程,熟悉Scrapy等常用爬虫框架;
    • 熟悉Linux操作、正则表达式,MySQL、MongoDB等常用数据库,了解各种Web前端技术;
    • 能够解决封账号、封IP、验证码识别、图像识别等问题;

    扇贝 爬虫工程师 8-16k

    负责:

    • 开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作
    • 负责网页信息和 App 数据抽取、消重等工作
    • 配合算法岗完成ETL 相关任务

    要求:

    • 掌握网页抓取原理及技术,了解基于 Cookie 的登录原理,熟悉基于正则表达式、XPath 等网页信息抽取技术
    • 熟悉常用开源爬虫框架,如 scrapy / pyspider
    • 扎实的编码能力与算法基础,熟悉 Linux 下的 Python / Shell 开发

    高级岗位

    千里马-北京 爬虫leader 30-40k

    要求:

    • 深度参与过至少一个‘分布式网络爬虫系统’的架构设计
    • 扎实的数据结构与算法功底,有迭代开发经验
    • 精通反爬对抗,Ajex网页抓取,浏览器模拟抓取、多平台抓取等技术
    • 熟悉分布式系统,多线程
    • 对主流爬虫架构有深入研究,具有成熟爬虫工具的设计及运维经验

  • 相关阅读:
    “奇葩”控件向后台传数据
    借助cookie实现子网页修改父网页内容遇到的问题:同一个浏览器访问相同页面,会互相影响。 (已解决)
    JS 怎么控制某个div的滚动条滚动到顶部? (已解决)
    怎么在表单提交前检查数据输入。
    table布局, td内部元素溢出边界问题。 (已解决)
    怎么在两个内嵌的子网页之间通信?(已解决)
    关于div的滚动条滚动到底部,内容显示不全的问题。(已解决)
    怎么使用CKEDITOR
    新问题:关于网页中的文本框在手机上受软键盘弹出的影响问题。(已解决)
    Oracle多行查询(函数)
  • 原文地址:https://www.cnblogs.com/lokvahkoor/p/10642912.html
Copyright © 2011-2022 走看看