IMPORTXML函数可直接从公开网页或XML/HTML/RSS/ATOM源抓取结构化数据,语法为=IMPORTXML("URL","XPath"),需确保目标可访问、结构稳定且不依赖JavaScript渲染。

Google Sheets 的 IMPORTXML 函数可以直接从网页或公开 XML(及 HTML、CSV、RSS、ATOM)源抓取结构化数据,无需下载或手动复制,但需注意来源可访问性、结构稳定性与使用限制。
IMPORTXML 基本语法和用法
函数格式为:
=IMPORTXML("URL", "XPath 查询表达式")
- 第一个参数是目标网页或 XML 文件的**完整 URL**(必须以
http://或https://开头) - 第二个参数是 **XPath 表达式**,用于精准定位你想要提取的内容(例如
"//title"提取网页标题,"//item/title"提取 RSS 中所有 item 的 title) - 结果会自动填充到当前单元格开始的连续区域(可能跨多行多列),不能手动增删行列
常见 XPath 写法示例(针对 XML/HTML)
假设你要从一个 RSS 源(如 https://example.com/feed.xml)提取标题和链接:
- 提取全部
标签内容:"//title" - 提取每个
下的标题:"//item/title" - 提取每个
下的链接():"//item/link" - 提取带属性的节点,比如
中的 id 值:"//entry/@id" - 定位特定位置:第 2 个
的发布时间:"(//item/pubDate)[2]"
使用前必须确认的几点
- 目标网页必须公开可访问:不能是登录后才显示的内容,也不能是 robots.txt 禁止爬取或反爬机制强的网站(如多数新闻站、电商页面)
-
XML/HTML 结构需稳定:如果网站改版导致标签名或层级变化,公式会返回
#N/A - 有调用频率限制:每个表格最多同时运行约 50 个 IMPORTXML 公式;频繁刷新或大量使用可能触发临时限制
- 不支持 JavaScript 渲染内容:只读取服务器返回的原始 HTML/XML,动态加载的数据(如无限滚动内容)无法获取










