zoukankan      html  css  js  c++  java
  • Training: WWW-Robots

    原题链接:http://www.wechall.net/challenge/training/www/robots/index.php

    打开网页他给我们说什么

    说什么这是一个小挑战,你将会了解到机器人排除标准,robots.txtWeb爬虫用来检查它们是否允许爬行和索引您的网站,或者只是其中的一部分。有时,这些文件会显示目录结构,而不是保护内容不被爬行。

    具体点:

    robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它[1]  robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

    当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

    如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的请勿打扰欢迎打扫的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。

    Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。(摘自百度百科)

    所以这道题的robots.txt也是在根目录中,直接访问http://www.wechall.net/robots.txt

    看到

    再访问www.wechall.net/challenge/training/www/robots/T0PS3CR3T

    问题解决(这道题需要登录注册才行)

  • 相关阅读:
    三数之和
    罗马数字与整数
    Oracle 开启或关闭归档
    Oracle RMAN scripts to delete archivelog
    Oracle check TBS usage
    Oracle kill locked sessions
    场景9 深入RAC运行原理
    场景7 Data Guard
    场景4 Data Warehouse Management 数据仓库
    场景5 Performance Management
  • 原文地址:https://www.cnblogs.com/wosun/p/11252930.html
Copyright © 2011-2022 走看看