`
m635674608
  • 浏览: 4930704 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

robots协议

 
阅读更多
robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它[1] 。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。
 
这知识一个道义上约定俗成的东西,没有技术约束力,
 这个东西只是君子协议,他封你,改变user-agent
 
 
分享到:
评论

相关推荐

    python 20、爬虫 01-2_爬虫介绍、分类及用途、robots协议、urllib基本使用、re模块.mp4

    python 20、爬虫 01-2_爬虫介绍、分类及用途、robots协议、urllib基本使用、re模块.mp4

    python 20、爬虫 01-1_爬虫介绍、分类及用途、robots协议、urllib基本使用、re模块.mp4

    python 20、爬虫 01-1_爬虫介绍、分类及用途、robots协议、urllib基本使用、re模块.mp4

    易优cms robots文件生成器插件.zip

    易优cms robots文件生成器插件.zip

    浅谈Python爬虫,爬虫是一门技术

    爬虫是一门技术,它的作用就是使用代码,从各个网站/app等网络上请求数据,这个步骤就是爬虫,有一些公司,利用爬虫...我们在使用爬虫的时候,尽量去遵守robots协议(爬虫协议),不要去抓取敏感信息,触碰法律的红线。

    大数据爬虫技术第2章 爬虫的实现原理和技术.ppt

    robots.txt文件使用#号进行注释 # 第一行记录 User-agent: Googlebot Robots协议只是一种建议,它没有实际的约束力,网络爬虫可以选择不遵守这个协议,但可能会存在一定的法律风险。 为了方便网站管理员通知爬虫...

    Python爬取网络资源代码.rar

    我们再来看下爬虫应该遵循的规则:robots协议是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被...

    爬虫入门,基础知识总结

    我会首先介绍 robots.txt 文档,即 robots 协议,让大家合理、合法的进行网络爬虫。 ... 3 爬虫框架 通过上面的基本爬虫的简单学习,我们发现使用原始的爬虫存在着低效率、代码量大的缺点,一般只能用作小型项目的...

    网络爬虫是否合法?

    Robots协议(爬虫协议)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。该协议是国际互联网界通行的道德规范,虽然没有写入法律...

    python 爬虫入门实例.zip

    然而,在使用Python爬虫时,我们也需要注意遵守网站的robots协议,避免对网站造成过大的访问压力,以及尊重他人的隐私和版权。 总之,Python爬虫是一种强大的数据抓取工具,可以帮助我们高效地从互联网上获取所需的...

    python 爬虫入门实例.docx

    然而,在使用Python爬虫时,我们也需要注意遵守网站的robots协议,避免对网站造成过大的访问压力,以及尊重他人的隐私和版权。 总之,Python爬虫是一种强大的数据抓取工具,可以帮助我们高效地从互联网上获取所需的...

    HTTP协议及网络爬虫

    HTTP协议、网络爬虫引发的问题、Robots协议及遵守方式的一些个人笔记。。。

    python-爬虫.pdf

    python_爬⾍ 1、⽹络爬⾍ 1、定义:⽹络蜘蛛,⽹络机器⼈,抓取⽹络数据的程序 2、总结:⽤Python程序去模仿⼈去访问⽹站,模仿的越逼真越好 ...1、通⽤的⽹络爬⾍(搜索引擎引⽤,需要遵守robots协议

    Python网络爬虫教程详解.pdf

    1.6 爬虫的合法性与robots 协议. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.6.1 robots 协议. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.6.2 ...

    python爬虫讲解.docx

    python爬虫讲解 Python爬虫讲解 Python爬虫是一种...首先,爬虫应该遵守网站的robots协议,不得对网站进行恶意攻击或破坏。其次,爬虫应该尊重网站的版权和隐私,不得将抓取的数据用于商业用途或侵犯他人的隐私。 pyt

    python爬虫讲解(1).docx

    python爬虫讲解 Python爬虫讲解 Python爬虫是一种...首先,爬虫应该遵守网站的robots协议,不得对网站进行恶意攻击或破坏。其次,爬虫应该尊重网站的版权和隐私,不得将抓取的数据用于商业用途或侵犯他人的隐私。 pyt

    Python爬虫实战笔记-股票爬取示例.md

    最后提出了爬虫的最佳实践,如避免频繁请求、遵守Robots协议等。在应用扩展部分,文中还以股票数据获取为例,展示了爬取和分析股票信息的代码示例。内容全面介绍了Python爬虫的实战技巧。 适合人群: 对Python爬虫技术...

    中职网络安全竞赛-隐藏信息探索-web2-自己建立的题目环境

    第3关:本站支持robots协议。 第4关:GET传参 第5关:考察万能密码:用户名输入:admin' or '1'='1 --+ 密码随意 第6关:只允许IP为172.16.1.100的地址访问 适用人群:参加中职网络安全竞赛的学生和老师 使用环境...

    走进搜索引擎(上) 梁斌 编著 上中下

     Robots协议  其他应该注意的礼貌性问题  抓取提速策略(合作抓取策略)  第五节网页库  第六节下载系统回顾及未来发展  参考文献  第四章搜索引擎的分析系统  第一节知识准备  HTML语言  锚文本...

    帝国CMS中robots.txt文件用法

    主要为大家介绍了帝国CMS中robots.txt文件用法,详细分析了robots协议的原理与使用技巧,并实例讲述了帝国CMS中robots.txt文件的使用方法,需要的朋友可以参考下

Global site tag (gtag.js) - Google Analytics