robots.txt
是一个文本文件,用于告诉搜索引擎的爬虫(也称为蜘蛛或机器人)哪些页面或目录不应该被索引,它通常放置在网站的根目录下,例如http://www.example.com/robots.txt
。
有什么用?
1、控制爬虫行为:通过指定哪些页面可以被爬取,哪些不能被爬取,可以优化搜索引擎的抓取效率和资源使用。
2、保护隐私:防止敏感信息或不希望公开的内容被搜索引擎索引。
3、节省带宽:减少不必要的数据抓取,从而节省服务器带宽。
4、SEO优化:帮助网站管理员更好地管理其网站的索引情况,避免一些不需要的页面被搜索引擎收录。
怎么写?
robots.txt
文件的基本格式如下:
User-agent: * Disallow: /private/ Allow: /public/
常用指令:
User-agent
: 指定爬虫的名称,可以使用通配符 表示所有爬虫。
Disallow
: 指定不允许爬虫访问的路径,可以是具体的文件或目录。
Allow
: 指定允许爬虫访问的路径,优先级高于Disallow
。
示例:
假设你有一个网站,并且希望阻止所有爬虫访问/private/
目录,但允许访问/public/
目录,你可以这样写:
User-agent: * Disallow: /private/ Allow: /public/
如果你只想针对特定的爬虫,Googlebot,你可以这样写:
User-agent: Googlebot Disallow: /private/ Allow: /public/
注意事项:
1、大小写敏感:User-agent
和Disallow
等指令是大小写敏感的。
2、路径规则:路径可以是绝对路径也可以是相对路径,绝对路径以/
开头,相对路径则相对于robots.txt
文件的位置。
3、顺序:Allow
指令优先于Disallow
指令,如果一个路径同时被Disallow
和Allow
指定,那么Allow
会生效。
通过合理配置robots.txt
文件,可以有效管理和优化网站的爬虫行为,提高用户体验和搜索引擎友好度。