zoukankan      html  css  js  c++  java
  • 1、Question about web crawler

    1、Question about  web crawler

    难:

    1、cookie、JavaScript的关系?怎么产生的cookie?cookie包含哪些内容?JavaScript的功能在crawler代码中通过python的第三方库selenium,selenium用于执行JavaScript的脚本语言,那selenium是什么?运行脚本语言的脚本语言?PhantomJS(基于WebKit的服务端JavaScript API)?cookie来自服务器,理论上付呜呜会保存该用户登陆状态,客户端私自修改cookie,服务器没有与之修改cookie有映射怎么搞?这不是异常?

    答:url:https://www.cnblogs.com/yinminbo/p/12014453.html

    2、python库jQuery是基于JavaScript的第三方库,二、JavaScript是web客户端的脚本语言,难道jQuery是基于JavaScript语言编写的客户端的脚本语言的第三方库?python的第三方库和选择器的关系?(关系库是:find、findAll、find_element_by_id)Ajax技术是什么技术?jQuery如何帮助实现Ajax技术?

    答:url:https://www.cnblogs.com/yinminbo/p/12020198.html

    3、python第三方库requests库包含的类有哪些?==requests库的功能有哪些?requests库是实现这些功能独一无二的吗?如果不是,那requests库与其他库的优势和局限性?怎么将requests库根据自己的需求进行特性定制?

    4、浏览器、web客户端、web服务器端的关系和组成?这三者之间的交互式怎么实现的?涉及Ajax技术、html格式文本(动态HTML和静态HTML的区别和关系是什么?)、使用了哪些数据结构来抽象对象,文件管理系统的算法逻辑是怎么样?webdriver是web服务器的组成部分还是浏览器的组成部分亦或者是web客户端?

    # 5、web crawler涉及的网络方面的知识?#应该归为网络方面的question

    5、web crawler会有哪些异常,如何处理这些异常?这些异常的产生于前面哪些疑问相关?网络、反crawler居多;而反crawler有涉及html、JavaScript、http等

    6、伪随机数和随机数种子如何产生?梅森旋转算法?

    7、网页表单的组成?web服务器如何根据web客户端提交的网页表单信息对用户进行区别对待(people还是robot)?如何将robot隐藏成people?如何特性定制网页表单?有哪些python第三方库可以实现功能?

    8、API是什么?API和web三剑客的关系是如何(父子、朋友)?如何利用API?

    # 9、并行网页抓取涉及的进程方面的那些知识?# 这部分的知识应该归为进程管理的question

    10、拓展:自然语言处理、图像识别和文字处理、

    易:

    1、beautiful库的功能,beautiful库的三问?一问:对手;二问:优缺点;三问:如何特性定制

    2、验证码的实现逻辑、如何通过验证的‘墙’

    3、html的问题有哪些?

    标签异常(缺失、未闭合、未正确嵌套)、

    4、框架scrapy的组成和功能、深入理解各个部分的实现和web三个参与者的关系?分布型抓取还是单机运行?多线层还是单线程?多进程还是单进程?通信采取哪种?通讯方式‘三问’?使用的套路(例如:最后需要关闭close())?

    5、三种文档编码方式:ASCII、Unicode、ISO的认识和理解。这三者和CSV、PDF、docx文件的关系是什么?

    6、web crawler失败的可能性有哪些?为什么会有着写可能性?哪种可能性更高?如何减小失败的可能性?

  • 相关阅读:
    Jdbc 事务
    Spring
    【Java集合的详细研究1】Collections类常用方法总结
    Java Number类
    Java中值类型和引用类型的区别
    Java常量池的理解
    Java重写与重载之间的区别
    Java中Animal b = new Dog();Dog c = new Dog();的区别
    java类构造器的理解
    Javascript history pushState onpopstate方法做AJAX SEO
  • 原文地址:https://www.cnblogs.com/yinminbo/p/12014445.html
Copyright © 2011-2022 走看看