🕹 Robots.txt 与 🗺 Sitemap.xml 在 SEO 中的作用与实现

一、Robots.txt

1. 作用

告诉搜索引擎爬虫哪些页面可以访问，哪些不能访问
- 如屏蔽 /admin、/login 等后台路径。
节省爬虫抓取预算（Crawl Budget）
- 搜索引擎每天给网站的抓取资源有限，避免浪费在无关页面上。
防止隐私或重复页面被收录
- 避免收录测试页面、动态参数页、重复内容。

⚠️ 注意：

Robots.txt 不是安全工具，只是给搜索引擎的“建议”。
真正的安全需要使用 权限控制 / 登录验证。

2. 写法示例

文件放在网站根目录 /robots.txt：

 1# 允许所有搜索引擎访问所有页面
 2User-agent: *
 3Allow: /
 4
 5# 禁止爬取后台
 6Disallow: /admin/
 7Disallow: /login/
 8
 9# 允许爬取特定文件夹
10Allow: /public/
11
12# 指定网站地图位置
13Sitemap: https://www.example.com/sitemap.xml

User-agent：搜索引擎爬虫（* 表示所有）。
Allow：允许访问的路径。
Disallow：禁止访问的路径。
Sitemap：告诉搜索引擎网站地图的位置。

二、Sitemap.xml

1. 作用

告诉搜索引擎网站的重要页面，即使内部链接没覆盖到。
提供页面信息（更新时间、优先级、更新频率）。
帮助搜索引擎更快发现和收录新内容。

特别适合：

新网站（外链少）。
大型网站（页面多、层级深）。
动态网站（内容经常更新）。

2. 写法示例

文件放在网站根目录 /sitemap.xml：

 1<?xml version="1.0" encoding="UTF-8"?>
 2<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 3  <url>
 4    <loc>https://www.example.com/</loc>
 5    <lastmod>2025-09-16</lastmod>
 6    <changefreq>daily</changefreq>
 7    <priority>1.0</priority>
 8  </url>
 9  <url>
10    <loc>https://www.example.com/blog/seo-tips</loc>
11    <lastmod>2025-09-10</lastmod>
12    <changefreq>weekly</changefreq>
13    <priority>0.8</priority>
14  </url>
15</urlset>

<loc>：页面 URL
<lastmod>：最后修改时间
<changefreq>：更新频率（daily / weekly / monthly）
<priority>：优先级（0.0–1.0，首页一般 1.0）

3. 生成方式

小型网站：手动编写 sitemap.xml
大型/动态网站：自动生成
- WordPress 插件（Yoast SEO / RankMath）
- 前端框架插件（Next.js / Nuxt / Astro 都有 sitemap 插件）
- 在线生成工具：https://www.xml-sitemaps.com/

三、提交到搜索引擎

在 robots.txt 中声明 Sitemap 地址。
在搜索引擎站长工具提交：

四、总结

Robots.txt：过滤、指导爬虫，避免浪费抓取资源。
Sitemap.xml：列出重要页面，帮助爬虫更快收录。
两者配合：先告诉爬虫哪些页面不能抓，再把要收录的页面列全。