网站robots.txt文件是什么？-seo-网站优化

时间：2023-07-01 14:05 阅读数：36 人阅读分类：知识百科

1.robots.txt文件的路径

robots,txt文件固定是在网站根目录下，就是网站域名的下一级，文件名称就是robots.txt，如：

.6cu/ robots.txt。

2.robots.txt文件网站必须要有

也许会有SEO优化人员会说，网站内容就是想让蜘蛛随意抓取，所以服务器放不放robots.txt文件都无所谓。其实这种说法是不对的，因为robost.txt文件会影响到服务器的设置方面，如果robots.txt文件不存在，服务器会返回200状态码及一些错误信息，而不是404状态码，这很有可能让搜索引擎的蜘蛛误读robots.txt文件内容。其次，就算允许搜索引擎蜘蛛随意抓取，也应该创建一个空的robots.txt文件，放在网站根目录下。

3.robots.txt文件的基本格式

robots文件由记录组成，记录之间以空行分开,记录格式如下：<域>:<可选空格><域值><可选空格>

空格可以在域值两边可加可不加，可以简单记为：<域>:<域值>

robots.txt文件最简单样式为：

User-agent: *

Disallow: /

不过此robots.txt文件不建议使用，因为这个是禁止所有搜索引擎抓取任何内容。

允许所有搜索引擎抓取任何内容的robots.txt为：

User-agent: *

Disallow:

4.robots.txt文件的编写方法

4.1.User-agent

指定下面的规则适用于哪个蜘蛛，通配符星号*代表所有搜索引擎。

以下规则适用于所有搜索引擎：User-agent: *

只适用于百度：User-agent: Baiduspider

4.2.Disallow

告诉蜘蛛不要去抓取某些文件或目录，写法：每禁止一个抓取一个文件或目录，都必须另起一行，同一行不能禁止抓取两个文件或两个目录或一个文件一个目录。

例如禁止抓取temp和a目录，禁止抓取b目录下的11.html和22.html。

Disallow: /temp/

Disallow: /a/

Disallow: /b/11.html

Disallow: /b/22.html

切勿写为Disallow: /temp/ /a/

4.3.Allow

告诉蜘蛛应该抓取某些文件或目录,由于不指定则是允许抓取，故Allow必须和Disallow一起用。

如禁止抓取目录a下的文件，在允许抓取b目录下的文件，而b目录在目录a下。

Disallow: /a/

Allow: /a/b/

4.4.$

通配符$，匹配URL结果的字符。

如禁止抓取.jpg格式的图片：

Disallow: .jpg$

如允许抓取所有.htm文件：

Allow: .htm$

4.5.*

通配符*，匹配任意字符。

4.6.Sitemap

告诉搜索引擎网站sitemaps的位置，是对搜索引擎蜘蛛的友好。当然一般情况下sitemaps也是放在网站根目录（老铁外链网络的sitemap位置，.6cu/ sitemap.xml）。

Sitemap: .6cu/ sitemap.xml

robots是禁止抓取的，还有一种方式为禁止索引，noindex meta robots标签。

4.7.禁止索引

noindex meta robots标签是页面中间的meta标签的一种，用于告诉搜索引擎禁止索引本页内容，因而也就不会出现在搜索引擎的结果页面中了。

格式如下：

意思为禁止所有搜索引擎索引本页面，禁止跟踪本页面上的链接。

百度仅支持nofollow和noarchive。Google、必应都支持下面标签。

noindex：不要索引本页面。

nofollow：不要跟踪本页面上的链接。

nosnippet：不要在搜索结果中显示摘要文字。

noarchive：告诉搜索引擎不要显示快照。

noodp：不要使用开放目录中的标题和描述。

上一篇：网站主机对SEO优化的影响有哪些？-seo-网站优化

下一篇：网站SEO优化效果的查看的方法有哪些？-seo-网站优化