网站robots.txt文件是什么?-seo-网站优化
1.robots.txt文件的路径
robots,txt文件固定是在网站根目录下,就是网站域名的下一级,文件名称就是robots.txt,如:
.6cu/ robots.txt。
2.robots.txt文件网站必须要有
也许会有SEO优化人员会说,网站内容就是想让蜘蛛随意抓取,所以服务器放不放robots.txt文件都无所谓。其实这种说法是不对的,因为robost.txt文件会影响到服务器的设置方面,如果robots.txt文件不存在,服务器会返回200状态码及一些错误信息,而不是404状态码,这很有可能让搜索引擎的蜘蛛误读robots.txt文件内容。其次,就算允许搜索引擎蜘蛛随意抓取,也应该创建一个空的robots.txt文件,放在网站根目录下。
3.robots.txt文件的基本格式
robots文件由记录组成,记录之间以空行分开,记录格式如下:<域>:<可选空格><域值><可选空格>
空格可以在域值两边可加可不加,可以简单记为:<域>:<域值>
robots.txt文件最简单样式为:
User-agent: *
Disallow: /
不过此robots.txt文件不建议使用,因为这个是禁止所有搜索引擎抓取任何内容。
允许所有搜索引擎抓取任何内容的robots.txt为:
User-agent: *
Disallow:
4.robots.txt文件的编写方法
4.1.User-agent
指定下面的规则适用于哪个蜘蛛,通配符星号*代表所有搜索引擎。
以下规则适用于所有搜索引擎:User-agent: *
只适用于百度:User-agent: Baiduspider
4.2.Disallow
告诉蜘蛛不要去抓取某些文件或目录,写法:每禁止一个抓取一个文件或目录,都必须另起一行,同一行不能禁止抓取两个文件或两个目录或一个文件一个目录。
例如禁止抓取temp和a目录,禁止抓取b目录下的11.html和22.html。
Disallow: /temp/
Disallow: /a/
Disallow: /b/11.html
Disallow: /b/22.html
切勿写为Disallow: /temp/ /a/
4.3.Allow
告诉蜘蛛应该抓取某些文件或目录,由于不指定则是允许抓取,故Allow必须和Disallow一起用。
如禁止抓取目录a下的文件,在允许抓取b目录下的文件,而b目录在目录a下。
Disallow: /a/
Allow: /a/b/
4.4.$
通配符$,匹配URL结果的字符。
如禁止抓取.jpg格式的图片:
Disallow: .jpg$
如允许抓取所有.htm文件:
Allow: .htm$
4.5.*
通配符*,匹配任意字符。
4.6.Sitemap
告诉搜索引擎网站sitemaps的位置,是对搜索引擎蜘蛛的友好。当然一般情况下sitemaps也是放在网站根目录(老铁外链网络的sitemap位置,.6cu/ sitemap.xml)。
Sitemap: .6cu/ sitemap.xml
robots是禁止抓取的,还有一种方式为禁止索引,noindex meta robots标签。
4.7.禁止索引
noindex meta robots标签是页面
中间的meta标签的一种,用于告诉搜索引擎禁止索引本页内容,因而也就不会出现在搜索引擎的结果页面中了。格式如下:
意思为禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。
百度仅支持nofollow和noarchive。Google、必应都支持下面标签。
noindex:不要索引本页面。
nofollow:不要跟踪本页面上的链接。
nosnippet:不要在搜索结果中显示摘要文字。
noarchive:告诉搜索引擎不要显示快照。
noodp:不要使用开放目录中的标题和描述。
