🕹 Robots.txt 与 🗺 Sitemap.xml 在 SEO 中的作用与实现

🕹 Robots.txt 与 🗺 Sitemap.xml 在 SEO 中的作用与实现

一、Robots.txt

1. 作用

  • 告诉搜索引擎爬虫哪些页面可以访问,哪些不能访问
    • 如屏蔽 /admin/login 等后台路径。
  • 节省爬虫抓取预算(Crawl Budget)
    • 搜索引擎每天给网站的抓取资源有限,避免浪费在无关页面上。
  • 防止隐私或重复页面被收录
    • 避免收录测试页面、动态参数页、重复内容。

⚠️ 注意:

  • Robots.txt 不是安全工具,只是给搜索引擎的“建议”。
  • 真正的安全需要使用 权限控制 / 登录验证

2. 写法示例

文件放在网站根目录 /robots.txt

 1# 允许所有搜索引擎访问所有页面
 2User-agent: *
 3Allow: /
 4
 5# 禁止爬取后台
 6Disallow: /admin/
 7Disallow: /login/
 8
 9# 允许爬取特定文件夹
10Allow: /public/
11
12# 指定网站地图位置
13Sitemap: https://www.example.com/sitemap.xml
  • User-agent:搜索引擎爬虫(* 表示所有)。

  • Allow:允许访问的路径。

  • Disallow:禁止访问的路径。

  • Sitemap:告诉搜索引擎网站地图的位置。

二、Sitemap.xml

1. 作用

  • 告诉搜索引擎网站的重要页面,即使内部链接没覆盖到。

  • 提供页面信息(更新时间、优先级、更新频率)。

  • 帮助搜索引擎更快发现和收录新内容

特别适合:

  • 新网站(外链少)。

  • 大型网站(页面多、层级深)。

  • 动态网站(内容经常更新)。

2. 写法示例

文件放在网站根目录 /sitemap.xml:

 1<?xml version="1.0" encoding="UTF-8"?>
 2<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 3  <url>
 4    <loc>https://www.example.com/</loc>
 5    <lastmod>2025-09-16</lastmod>
 6    <changefreq>daily</changefreq>
 7    <priority>1.0</priority>
 8  </url>
 9  <url>
10    <loc>https://www.example.com/blog/seo-tips</loc>
11    <lastmod>2025-09-10</lastmod>
12    <changefreq>weekly</changefreq>
13    <priority>0.8</priority>
14  </url>
15</urlset>
  • <loc>:页面 URL

  • <lastmod>:最后修改时间

  • <changefreq>:更新频率(daily / weekly / monthly)

  • <priority>:优先级(0.0–1.0,首页一般 1.0)

3. 生成方式

  • 小型网站:手动编写 sitemap.xml

  • 大型/动态网站:自动生成

    • WordPress 插件(Yoast SEO / RankMath)

    • 前端框架插件(Next.js / Nuxt / Astro 都有 sitemap 插件)

    • 在线生成工具:https://www.xml-sitemaps.com/


三、提交到搜索引擎

  1. 在 robots.txt 中声明 Sitemap 地址。

  2. 在搜索引擎站长工具提交:


四、总结

  • Robots.txt:过滤、指导爬虫,避免浪费抓取资源。

  • Sitemap.xml:列出重要页面,帮助爬虫更快收录。

  • 两者配合:先告诉爬虫哪些页面不能抓,再把要收录的页面列全。

个人笔记记录 2021 ~ 2025