返回

robots.txt常用的配置示例说明

2024-10-16 robots 配置 2356 0

robots.txt 是一个用于管理搜索引擎爬虫如何访问和索引网站内容的文件。以下是一些常见的配置示例及其说明:

1. 阻止所有爬虫访问整个网站

User-agent: *
Disallow: /

说明: * 表示所有爬虫,/ 表示整个网站。这会阻止所有爬虫访问整个网站。

2. 允许所有爬虫访问整个网站

User-agent: *
Disallow:

说明: 不使用 Disallow,等同于允许爬虫访问整个网站。

3. 阻止特定目录或文件

User-agent: *
Disallow: /private/
Disallow: /temp/
Disallow: /secret-file.html

说明: 阻止爬虫访问 /private/ 和 /temp/ 目录,以及 /secret-file.html 文件。

4. 仅允许特定爬虫访问整个网站

User-agent: Googlebot
Disallow:

说明: 允许 Googlebot(Google 的爬虫)访问整个网站。其他爬虫会受到默认的 Disallow 限制。

5. 阻止特定爬虫访问整个网站

User-agent: BadBot
Disallow: /

说明: 阻止名为 BadBot 的爬虫访问整个网站。

6. 阻止所有爬虫访问特定文件类型

User-agent: *
Disallow: /*.pdf$
Disallow: /*.zip$

说明: 阻止所有爬虫访问 .pdf 和 .zip 文件。$ 表示精确匹配这些文件扩展名。

7. 允许访问特定目录,阻止其他内容

User-agent: *
Disallow: /
Allow: /public/

说明: 阻止所有爬虫访问整个网站,但允许访问 /public/ 目录。

8. 允许访问特定文件

User-agent: *
Disallow: /private/
Allow: /private/open.html

说明: 阻止所有爬虫访问 /private/ 目录,但允许访问其中的 open.html 文件。

9. 指定爬行延迟 (Crawl-delay)

User-agent: *
Crawl-delay: 10

说明: 设置爬虫在抓取页面之间等待的时间(秒)。注意:不是所有的爬虫都支持这个指令,例如,Googlebot 不支持。

10. 指定站点地图位置

Sitemap: https://example.com/sitemap.xml

说明: 提供站点地图的 URL,帮助爬虫更好地理解网站的结构。

11. 不同爬虫不同配置

User-agent: Googlebot
Disallow: /no-google/

User-agent: Bingbot
Disallow: /no-bing/

说明: 为不同的爬虫设置不同的规则。例如,阻止 Googlebot 访问 /no-google/,阻止 Bingbot 访问 /no-bing/。

12. 阻止 URL 中包含特定参数的页面

User-agent: *
Disallow: /*?sessionid=

说明: 阻止爬虫访问所有 URL 中包含 ?sessionid= 参数的页面。

robots.txt 文件的灵活性允许网站管理员对爬虫的行为进行详细控制。常用的配置包括允许或禁止访问特定目录或文件、为特定爬虫设定规则、设置抓取延迟以及指明站点地图的位置等。根据网站的需求,可以组合这些规则来更好地管理爬虫的访问。

顶部