robots协议

m635674608

浏览: 4930704 次
性别:
来自: 南京

最近访客更多访客>>

millerchu

xdung

yunnick

lijun4010

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎，爬虫

robots.txt文件是一个文本文件，使用任何一个常见的文本编辑器，比如Windows系统自带的Notepad，就可以创建和编辑它[1] 。robots.txt是一个协议，而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。

如果将网站视为酒店里的一个房间，robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观，哪些房间因为存放贵重物品，或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令，也不是防火墙，如同守门人无法阻止窃贼等恶意闯入者。

这知识一个道义上约定俗成的东西，没有技术约束力，

这个东西只是君子协议，他封你，改变user-agent

分享到：

wireshark使用教程 | Apache Spark探秘：多进程模型还是多线程模 ...

2015-06-28 12:34
浏览 640
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

robots协议

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

robots协议

评论

发表评论

相关推荐

ElasticSearch Groovy脚本远程代码执行漏洞分析（CVE-2015-1427） （附exp）

postman进行http接口测试

selenium 使用经验总结

selenium chrome 浏览器闪退

selenium 浏览器版本

geckodriver 关闭日志

selenium与firefox版本不兼容

解决Selenium与firefox浏览器版本不兼容问题

剖析Elasticsearch集群系列之二：分布式的三个C、translog和Lucene段

分布式搜索elasticsearch 搜索结果排序不一致性问题

多个ElasticSearch Cluster的一致性问题

WEB渗透测试之三大漏扫神器

淘宝 OAuth2.0 的登录验证与授权

Jsoup中getElementsByClass中className有空格处理

HttpClient4 Post XML到一个服务器上

Android安装Fiddler证书抓取App的HTTPS流量

使用Charles进行https抓包

如何使用charles对Android Https进行抓包

Selenium WebDriver 中鼠标事件

获取真实IP的方法，以及伪造IP的例子代码

最近访客更多访客>>

ElasticSearch Groovy脚本远程代码执行漏洞分析（CVE-2015-1427）（附exp）