robots.txt常用的配置示例说明
2024-10-16 2356 0
robots.txt 是一个用于管理搜索引擎爬虫如何访问和索引网站内容的文件。以下是一些常见的配置示例及其说明:
1. 阻止所有爬虫访问整个网站
User-agent: *
Disallow: /
说明: * 表示所有爬虫,/ 表示整个网站。这会阻止所有爬虫访问整个网站。
2. 允许所有爬虫访问整个网站
User-agent: *
Disallow:
说明: 不使用 Disallow,等同于允许爬虫访问整个网站。
3. 阻止特定目录或文件
User-agent: *
Disallow: /private/
Disallow: /temp/
Disallow: /secret-file.html
说明: 阻止爬虫访问 /private/ 和 /temp/ 目录,以及 /secret-file.html 文件。
4. 仅允许特定爬虫访问整个网站
User-agent: Googlebot
Disallow:
说明: 允许 Googlebot(Google 的爬虫)访问整个网站。其他爬虫会受到默认的 Disallow 限制。
5. 阻止特定爬虫访问整个网站
User-agent: BadBot
Disallow: /
说明: 阻止名为 BadBot 的爬虫访问整个网站。
6. 阻止所有爬虫访问特定文件类型
User-agent: *
Disallow: /*.pdf$
Disallow: /*.zip$
说明: 阻止所有爬虫访问 .pdf 和 .zip 文件。$ 表示精确匹配这些文件扩展名。
7. 允许访问特定目录,阻止其他内容
User-agent: *
Disallow: /
Allow: /public/
说明: 阻止所有爬虫访问整个网站,但允许访问 /public/ 目录。
8. 允许访问特定文件
User-agent: *
Disallow: /private/
Allow: /private/open.html
说明: 阻止所有爬虫访问 /private/ 目录,但允许访问其中的 open.html 文件。
9. 指定爬行延迟 (Crawl-delay)
User-agent: *
Crawl-delay: 10
说明: 设置爬虫在抓取页面之间等待的时间(秒)。注意:不是所有的爬虫都支持这个指令,例如,Googlebot 不支持。
10. 指定站点地图位置
Sitemap: https://example.com/sitemap.xml
说明: 提供站点地图的 URL,帮助爬虫更好地理解网站的结构。
11. 不同爬虫不同配置
User-agent: Googlebot
Disallow: /no-google/
User-agent: Bingbot
Disallow: /no-bing/
说明: 为不同的爬虫设置不同的规则。例如,阻止 Googlebot 访问 /no-google/,阻止 Bingbot 访问 /no-bing/。
12. 阻止 URL 中包含特定参数的页面
User-agent: *
Disallow: /*?sessionid=
说明: 阻止爬虫访问所有 URL 中包含 ?sessionid= 参数的页面。
robots.txt 文件的灵活性允许网站管理员对爬虫的行为进行详细控制。常用的配置包括允许或禁止访问特定目录或文件、为特定爬虫设定规则、设置抓取延迟以及指明站点地图的位置等。根据网站的需求,可以组合这些规则来更好地管理爬虫的访问。