如何书写Robots搜索引擎协议-seo-网站优化

时间：2023-07-01 14:05 阅读数：75 人阅读分类：网站建设

如何书写Robots搜索引擎协议

百度百科对机器人的定义:机器人协议的全称(也称为爬虫协议、机器人协议等)。)是& ldquo网络爬虫的排除标准& rdquo(机器人排除协议)，网站通过机器人协议告诉搜索引擎哪些页面可以被抓取，哪些页面不能被抓取。简而言之，这是一个由网站和搜索引擎签署的协议，协议中的路径不应该被抓取和包含。

为什么你有机器人协议，也就是robots.txt文本文件？当搜索蜘蛛访问一个站点时，它会首先检查robots.txt是否存在于该站点的根目录中。如果存在，搜索爬虫将根据文件中的内容确定访问范围；如果robots.txt文件不存在，搜索爬网程序将对网站上不受密码保护的所有页面进行爬网。

网站中存在低质量和死链接内容等建议。如果百度抓取了你很多低质量的页面，它会降低网站的质量，减少权重，这会影响搜索引擎对你网站的印象。例如，当男人和女人开始谈论物品时，他们会隐藏不好的一面，而在网站背景下的成员隐私通常会被屏蔽。机器人协议编写

用户代理描述了搜索引擎蜘蛛的名字

不允许描述您不想被访问的路径

允许表示要爬网的路径

“* & quot通配符，这意味着匹配所有

“$ & quot结束符号

网站地图网站的地图路径

例1:禁止所有搜索引擎访问网站的任何部分

用户代理:*

不允许:/

示例2:允许所有蜘蛛访问网站的任何部分。你也可以创建一个空文件机器人

用户代理:*

允许:/

例3:只有一只蜘蛛被禁止访问你的网站

用户代理:Baiduspider

不允许:/

例4:只有一只蜘蛛可以访问你的网站

用户代理:Baiduspider

允许:/

用户代理:*

不允许:/

例6:蜘蛛被禁止抓取特定的路径

用户代理:*

不允许:/aaa/禁止所有蜘蛛访问“aaa。路径下的文件

禁止:/bbb/禁止所有蜘蛛访问“bbb。路径下的文件

禁止:/aaa/ccc/禁止所有蜘蛛访问“aaa下面的Ccc路径

不允许:/aaa/*。HTMl禁止访问所有带后缀的路径。AAA路径下的html

不允许:/*？*禁止访问网站中带有问号的所有路径，即动态页面

不允许:/*？$无法访问以问号结尾的网站路径

不允许:/*。php$访问任何以。php被禁止

示例7:只允许访问特定路径

用户代理:*

不允许:/

允许:/*。htmlOnly访问网站。允许html后缀

例8:禁止抓取特定格式的图片

用户代理:*

不允许:/*。jpg$

不允许:/*。gif$

不允许:/*。巴布亚新几内亚美元

机器人协议检查

网站的机器人协议是一个txt文本文件，写完后应该放在网站的根目录下。你可以通过访问路径来检查协议的正确*:你的域名，并在百度的网站管理员平台上检查协议是否正确。同时，最好添加网站地图路径，这有利于蜘蛛抓取和收集你的网页。通过百度站长工具检查机器人协议

机器人协议编写笔记

机器人协议中的第一个字母应该大写，字母后的冒号必须为英文；冒号“/”后在“/”中也有空之前如果你只是封锁一个特定的路径，不要有空，否则搜索引擎会认为你封锁了整个网站。如果你想让搜索引擎包含网站上的所有内容，不要创建robots.txt文件。在这里有所作为& ldquo“不允许:/aaa/”和“不允许:/aaa。前者阻止aaa后面的路径被蜘蛛爬行，而后者意味着aaa后面的路径也被阻挡。简书网搜索引擎优化博客的机器人协议如下:.qhdseo/robots.txt

上一篇：如何交换到权重高网站的友链-seo-网站优化

下一篇：大资源下的SEO流程化操作-seo-网站优化