robots.txt 在维基百科中的定义

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。robots.txt应放置于网站的根目录下。

问题描述

Google 网站管理员工具-网站配置-抓取工具的权限中可测试 robots.txt 时发现,解析结果有错误:“第 1 行:?User-agent: * 语法有误”。下面进行问题分析:

robots.txt 内容如下

User-agent: * Disallow: /wp-admin Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-includes Sitemap: http://magicalboy.com/sitemap.xml

可以发现,?User-agent 前面并没有任何字符,但经 Google 网站管理员工具的读取后,就变成了:

?User-agent: * Disallow: /wp-admin Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-includes Sitemap: http://magicalboy.com/sitemap.xml

解决问题

最简单的解决方法就是:下载在“Google 网站管理员工具-生成 robots.txt下载”生成的模板修改再上传到网站所在的根目录下。

分析问题

出现这一原因是由于 robots.txt 文件的编码所导致。在前面引用百科中 robots.txt 中说到,它是一个 ASCII 编码的文本文件。而造成语法错误多出一个?字符的 robotxs.txt 的文件编码为 UTF-8 + BOM(字节顺序记号(英:byte-order mark,BOM))!而从 Google 下载回来的编码是 UTF-8。而 UTF-8 编码包含了 ASCII。更多请点击术语链接到维基百科自行理解:)。

发表回复

您的 email 地址不会被公开。 必填信息前已经标志为 *

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>