zoukankan      html  css  js  c++  java
  • Python通用爬虫,聚焦爬虫概念理解

    通用爬虫:百度、360、搜狐、谷歌、必应.......

    原理:

    (1)抓取网页

    (2)采集数据

    (3)数据处理

    (4)提供检索服务

    百度爬虫:Baiduspider

    通用爬虫如何抓取新网站?

    (1)主动提交url

    (2)设置友情链接

    (3)百度会和DNS服务商合作,抓取新网站

    检索排名

    (1)竞价排名

    (2)根据pagerank值排名,由访问量,点击量得出,SEO岗位做的工作

    如果不想让百度爬虫你的网站:加一个文件robots.txt,可以限定哪些可以爬取我的网站,哪些不可以,例如淘宝的部分robots.txt内容:

    User-agent:  Baiduspider
    Allow:  /article
    Allow:  /oshtml
    Allow:  /ershou
    Allow: /$
    Disallow:  /product/
    Disallow:  /
    
    User-Agent:  Googlebot
    Allow:  /article
    Allow:  /oshtml
    Allow:  /product
    Allow:  /spu
    Allow:  /dianpu
    Allow:  /oversea
    Allow:  /list
    Allow:  /ershou
    Allow: /$
    Disallow:  /
    这个协议仅仅是口头上的协议,真正的还是可以爬取的。
    聚焦爬虫:根据特定的需求抓取指定的数据。
    思路:代替浏览器上网
    网页的特点:
    (1)网页都有自己唯一的url
    (2)网页内容都是HTML结构的
    (3)使用的都是http,https协议
    (1)给一个url
    (2)写程序,模拟浏览器访问url
    (3)解析内容,提取数据


  • 相关阅读:
    Numpy数据处理函数
    数据库-创建表
    描述统计学:表格法和图形法
    最短路 || POJ 1511 Invitation Cards
    搜索 || DFS || UOJ 146 信息传递
    最短路 || UOJ 19 寻找道路
    最短路 || POJ 1847 Tram
    博弈论
    筛选法 || POJ 3292 Semi-prime H-numbers
    团队第一次作业
  • 原文地址:https://www.cnblogs.com/lyxcode/p/11490064.html
Copyright © 2011-2022 走看看