robots.txt 在维基百科中的定义
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。robots.txt应放置于网站的根目录下。
问题描述
在Google 网站管理员工具-网站配置-抓取工具的权限中可测试 robots.txt 时发现,解析结果有错误:“第 1 行:?User-agent: * 语法有误”。下面进行问题分析:
robots.txt 内容如下
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Sitemap: http://magicalboy.com/sitemap.xml
可以发现,?User-agent 前面并没有任何字符,但经 Google 网站管理员工具的读取后,就变成了:
?User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Sitemap: http://magicalboy.com/sitemap.xml
解决问题
最简单的解决方法就是:下载在“Google 网站管理员工具-生成 robots.txt下载”生成的模板修改再上传到网站所在的根目录下。
分析问题
出现这一原因是由于 robots.txt 文件的编码所导致。在前面引用百科中 robots.txt 中说到,它是一个 ASCII 编码的文本文件。而造成语法错误多出一个?字符的 robotxs.txt 的文件编码为 UTF-8 + BOM(字节顺序记号(英:byte-order mark,BOM))!而从 Google 下载回来的编码是 UTF-8。而 UTF-8 编码包含了 ASCII。更多请点击术语链接到维基百科自行理解:)。

