html中无标准方式定义文档更新频率,meta标签如revisit-after和expires均非标准且被主流搜索引擎忽略;实际影响抓取的是last-modified、etag响应头及sitemap中的lastmod字段。

HTML里没有标准方式定义文档更新频率
浏览器和搜索引擎都不读取、不支持所谓“文档更新频率”的元信息。你查到的 <meta name="revisit-after"> 或 <meta name="expires"> 这类标签,全是过时的、非标准的、被主流忽略的写法。
为什么 <meta name="revisit-after"> 没用
这个标签曾出现在某些老教程或 CMS 默认模板里,但它从未被 HTML 规范采纳,也不在 W3C 或 WHATWG 标准中。现代搜索引擎(Google、Bing)明确表示不使用它判断抓取频率。
- Google 在官方文档中多次说明:不会读取
revisit-after - 即使写了
<meta name="revisit-after" content="7 days">,也不会让爬虫更勤快或更慢 - 部分老旧代理或内网工具可能误读,但属于边缘行为,不可依赖
真正影响更新感知的其实是 HTTP 响应头和内容本身
搜索引擎判断页面是否更新,靠的是实际响应头里的 Last-Modified 或 ETag,以及页面内容变化、外链引用、sitemap 更新时间等信号。
-
Last-Modified响应头比任何<meta>有效得多——服务端需真实生成并返回该头 -
ETag更精准,适合动态内容,但需要服务端配合计算哈希 - 提交到
sitemap.xml并设置<lastmod></lastmod>字段,是 Google 明确认可的更新提示方式 - 频繁改正文案、标题、结构,比加一百个伪元标签更能触发重抓
如果非要加个“更新时间”给人看,用语义化 HTML + 微数据
对用户可见的更新时间(比如博客文章底部),应该用 <time></time> 元素,而非试图欺骗爬虫。
立即学习“前端免费学习笔记(深入)”;
<p>更新于:<time datetime="2024-06-15T14:22:00+08:00">2024年6月15日</time></p>
这样既符合语义,又便于辅助技术解析,也兼容 Schema.org 的 dateModified 属性扩展。
真正在意更新节奏的人,得盯服务端逻辑和 crawl 日志,而不是在 里堆废弃标签。











