
本文讲解如何在 selenium 中正确获取动态渲染页面中所有单词(包括不可见但已加载的 dom 元素内容),解决 `.text` 返回空字符串的问题,推荐使用 `get_attribute("textcontent")` 替代。
在使用 Selenium 抓取类似 10 Fast Fingers 这类动态加载单词的打字测试页面时,一个常见误区是直接调用 element.text 获取文本内容。虽然该方法对当前可见、已渲染且未被 CSS 隐藏的元素有效,但它会忽略因滚动位置、CSS 样式(如 display: none、visibility: hidden 或 opacity: 0)或尚未进入视口而未被浏览器“激活”的文本节点——而这正是你看到大量空字符串的根本原因。
实际上,目标页面(#row1 > span[wordnr])中的所有单词 元素在页面加载后即已存在于 DOM 中,但部分元素可能尚未被浏览器计算为“可读文本”(例如处于懒加载区域或被临时隐藏),导致 .text 返回空值;而 get_attribute("textContent") 则直接读取元素的原始 DOM 文本内容,不受渲染状态或 CSS 可见性影响,因此能稳定获取全部约 300 个单词。
✅ 正确做法如下(已优化并添加健壮性处理):
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))
try:
driver.get("https://www.php.cn/link/8e3502fa984f26f6890f4a54c4be3f8d")
# 等待并拒绝 Cookie 弹窗(显式等待更可靠)
WebDriverWait(driver, 10).until(
EC.element_to_be_clickable((By.ID, "CybotCookiebotDialogBodyButtonDecline"))
).click()
# 等待单词容器加载完成(确保 #row1 存在且子元素就绪)
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.CSS_SELECTOR, "#row1"))
)
# 使用 get_attribute("textContent") 替代 .text
words = driver.find_elements(By.CSS_SELECTOR, "#row1 > span[wordnr]")
word_list = [word.get_attribute("textContent") for word in words if word.get_attribute("textContent")]
print(f"成功提取 {len(word_list)} 个单词")
print(word_list[:20]) # 打印前20个作为验证
finally:
# driver.quit() # 生产环境建议保留,调试时可注释
pass? 关键要点与注意事项:
- ✅ 永远优先使用 get_attribute("textContent") 而非 .text 来获取结构化文本内容,尤其在处理动态词表、隐藏元素或 SSR/CSR 混合渲染页面时;
- ⚠️ .text 依赖浏览器渲染引擎的“可视文本计算”,受 display、visibility、opacity、clip-path 等样式影响,不可靠;
- ⚠️ get_attribute("innerText") 同样受可见性影响,不推荐;textContent 是 DOM Level 3 标准属性,返回纯文本内容(含空格/换行),最接近源 HTML;
- ✅ 添加 WebDriverWait 显式等待关键元素就绪,避免因网络延迟或 JS 加载顺序导致 find_elements 返回空列表;
- ✅ 过滤掉 None 或空白字符串(if word.get_attribute("textContent")),提升数据洁净度;
- ? 若后续需自动输入,注意目标输入框可能有防机器人检测(如事件监听、输入节流),需模拟真实用户行为(如 send_keys() + ActionChains 移动光标等)。
通过以上调整,你将稳定获取完整单词列表,为自动化打字、性能分析或本地训练提供高质量数据基础。










