• 简书网微信公众号二维码
您当前的位置: 首页 > 知识百科 > 网站robots.txt文件是什么?-seo-网站优化

网站robots.txt文件是什么?-seo-网站优化

时间:2023-07-01 14:05 阅读数:36 人阅读 分类:知识百科

1.robots.txt文件的路径

robots,txt文件固定是在网站根目录下,就是网站域名的下一级,文件名称就是robots.txt,如:

.6cu/ robots.txt。

2.robots.txt文件网站必须要有

也许会有SEO优化人员会说,网站内容就是想让蜘蛛随意抓取,所以服务器放不放robots.txt文件都无所谓。其实这种说法是不对的,因为robost.txt文件会影响到服务器的设置方面,如果robots.txt文件不存在,服务器会返回200状态码及一些错误信息,而不是404状态码,这很有可能让搜索引擎的蜘蛛误读robots.txt文件内容。其次,就算允许搜索引擎蜘蛛随意抓取,也应该创建一个空的robots.txt文件,放在网站根目录下。

3.robots.txt文件的基本格式

robots文件由记录组成,记录之间以空行分开,记录格式如下:<域>:<可选空格><域值><可选空格>

空格可以在域值两边可加可不加,可以简单记为:<域>:<域值>

robots.txt文件最简单样式为:

User-agent: *

Disallow: /

不过此robots.txt文件不建议使用,因为这个是禁止所有搜索引擎抓取任何内容。

允许所有搜索引擎抓取任何内容的robots.txt为:

User-agent: *

Disallow:

4.robots.txt文件的编写方法

4.1.User-agent

指定下面的规则适用于哪个蜘蛛,通配符星号*代表所有搜索引擎。

以下规则适用于所有搜索引擎:User-agent: *

只适用于百度:User-agent: Baiduspider

4.2.Disallow

告诉蜘蛛不要去抓取某些文件或目录,写法:每禁止一个抓取一个文件或目录,都必须另起一行,同一行不能禁止抓取两个文件或两个目录或一个文件一个目录。

例如禁止抓取temp和a目录,禁止抓取b目录下的11.html和22.html。

Disallow: /temp/

Disallow: /a/

Disallow: /b/11.html

Disallow: /b/22.html

切勿写为Disallow: /temp/ /a/

4.3.Allow

告诉蜘蛛应该抓取某些文件或目录,由于不指定则是允许抓取,故Allow必须和Disallow一起用。

如禁止抓取目录a下的文件,在允许抓取b目录下的文件,而b目录在目录a下。

Disallow: /a/

Allow: /a/b/

4.4.$

通配符$,匹配URL结果的字符。

如禁止抓取.jpg格式的图片:

Disallow: .jpg$

如允许抓取所有.htm文件:

Allow: .htm$

4.5.*

通配符*,匹配任意字符。

4.6.Sitemap

告诉搜索引擎网站sitemaps的位置,是对搜索引擎蜘蛛的友好。当然一般情况下sitemaps也是放在网站根目录(老铁外链网络的sitemap位置,.6cu/ sitemap.xml)。

Sitemap: .6cu/ sitemap.xml

robots是禁止抓取的,还有一种方式为禁止索引,noindex meta robots标签。

4.7.禁止索引

noindex meta robots标签是页面中间的meta标签的一种,用于告诉搜索引擎禁止索引本页内容,因而也就不会出现在搜索引擎的结果页面中了。

格式如下:

意思为禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。

百度仅支持nofollow和noarchive。Google、必应都支持下面标签。

noindex:不要索引本页面。

nofollow:不要跟踪本页面上的链接。

nosnippet:不要在搜索结果中显示摘要文字。

noarchive:告诉搜索引擎不要显示快照。

noodp:不要使用开放目录中的标题和描述。