🕹 Robots.txt 与 🗺 Sitemap.xml 在 SEO 中的作用与实现
一、Robots.txt
1. 作用
- 告诉搜索引擎爬虫哪些页面可以访问,哪些不能访问
- 如屏蔽
/admin
、/login
等后台路径。
- 如屏蔽
- 节省爬虫抓取预算(Crawl Budget)
- 搜索引擎每天给网站的抓取资源有限,避免浪费在无关页面上。
- 防止隐私或重复页面被收录
- 避免收录测试页面、动态参数页、重复内容。
⚠️ 注意:
- Robots.txt 不是安全工具,只是给搜索引擎的“建议”。
- 真正的安全需要使用 权限控制 / 登录验证。
2. 写法示例
文件放在网站根目录 /robots.txt
:
1# 允许所有搜索引擎访问所有页面
2User-agent: *
3Allow: /
4
5# 禁止爬取后台
6Disallow: /admin/
7Disallow: /login/
8
9# 允许爬取特定文件夹
10Allow: /public/
11
12# 指定网站地图位置
13Sitemap: https://www.example.com/sitemap.xml
-
User-agent:搜索引擎爬虫(* 表示所有)。
-
Allow:允许访问的路径。
-
Disallow:禁止访问的路径。
-
Sitemap:告诉搜索引擎网站地图的位置。
二、Sitemap.xml
1. 作用
-
告诉搜索引擎网站的重要页面,即使内部链接没覆盖到。
-
提供页面信息(更新时间、优先级、更新频率)。
-
帮助搜索引擎更快发现和收录新内容。
特别适合:
-
新网站(外链少)。
-
大型网站(页面多、层级深)。
-
动态网站(内容经常更新)。
2. 写法示例
文件放在网站根目录 /sitemap.xml:
1<?xml version="1.0" encoding="UTF-8"?>
2<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
3 <url>
4 <loc>https://www.example.com/</loc>
5 <lastmod>2025-09-16</lastmod>
6 <changefreq>daily</changefreq>
7 <priority>1.0</priority>
8 </url>
9 <url>
10 <loc>https://www.example.com/blog/seo-tips</loc>
11 <lastmod>2025-09-10</lastmod>
12 <changefreq>weekly</changefreq>
13 <priority>0.8</priority>
14 </url>
15</urlset>
-
<loc>:页面 URL
-
<lastmod>:最后修改时间
-
<changefreq>:更新频率(daily / weekly / monthly)
-
<priority>:优先级(0.0–1.0,首页一般 1.0)
3. 生成方式
-
小型网站:手动编写 sitemap.xml
-
大型/动态网站:自动生成
-
WordPress 插件(Yoast SEO / RankMath)
-
前端框架插件(Next.js / Nuxt / Astro 都有 sitemap 插件)
-
三、提交到搜索引擎
-
在 robots.txt 中声明 Sitemap 地址。
-
在搜索引擎站长工具提交:
四、总结
-
Robots.txt:过滤、指导爬虫,避免浪费抓取资源。
-
Sitemap.xml:列出重要页面,帮助爬虫更快收录。
-
两者配合:先告诉爬虫哪些页面不能抓,再把要收录的页面列全。
个人笔记记录 2021 ~ 2025