zoukankan      html  css  js  c++  java
  • 网络爬虫-总结


    import requests
    requests . get( ' https:/ /www. baidu. com')
    爬虫程序
    1.给定种子url,程序负责获取url的页面数据
    2.程序对页面数据解析解析,匹配需要的url连接,放入到队列
    3.重复1和2, 直到条件完成

    效率 线程 协程 分布式架构

    优先级排序

    去重 先hash 再处理

    数据存储

  • 相关阅读:
    64_q2
    64_q1
    64_p10
    64_p9
    64_p8
    64_p7
    64_p6
    64_p5
    64_p4
    64_p3
  • 原文地址:https://www.cnblogs.com/liubosong/p/10339781.html
Copyright © 2011-2022 走看看