zoukankan html css js c++ java

如何禁止各个搜索引擎收录网站

首先从robots.txt文件下手：

1. 什么是robots.txt文件?

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt，在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。

2. robots.txt文件放在哪里?

robots.txt文件应该放置在网站根目录下。举例来说，当spider访问一个网站（比如 http://www.abc.com）时，首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件，如果 Spider找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

网站 URL	相应的 robots.txt的 URL
http://www.w3.org/	http://www.w3.org/robots.txt
http://www.w3.org:80/	http://www.w3.org:80/robots.txt
http://www.w3.org:1234/	http://www

路是自己走出来的，而不是选出来的。

查看全文

相关阅读:
4111130工作总结
 js enumerations 01
有角度地事件解读，有品质地视觉呈现。《视界》
Mule 入门之：环境搭建
 Date 对象用于处理日期和时间
 JS脚本，时间判断问题
 丈夫道(zhuan)
查看IP连接netstat
二代支付简介
 对付网页无法复制的最简单绝招 ( 转)

原文地址：https://www.cnblogs.com/mo3408/p/15741737.html