
使用 BeautifulSoup 解析 Genius 网站歌词时,find() 仅返回首个匹配的 ,而其歌词被拆分在多个 Lyrics__Container 类的 div 中,需改用 find_all() 并合并所有文本。
使用 beautifulsoup 解析 genius 网站歌词时,`find()` 仅返回首个匹配的 `
Genius 网站为提升可维护性与响应式渲染,将长篇歌词(尤其是含 Verse/Chorus/Refrain 等结构化段落)动态拆分为多个
你原代码中使用:
div = soup.find("div", class_=lambda value: value and re.search(r'^Lyrics__Container', value))find() 方法仅定位并返回第一个匹配的元素,因此只能提取首段(通常为 Verse 1 至 Verse 2),后续容器被完全忽略。
✅ 正确做法是使用 find_all() 获取全部匹配容器,并逐个提取文本后拼接:
phpweb1.0基于php+mysql+smarty开发的企业解决方案,总体感觉简洁快速,适合小型企业的建站方案,也适合初学者学习。 之前发布过phpweb1.0的原始版本,仅提供大家交流和学习,但很多的爱好者提出了一些不足和好评,本不想继续开发1.0,因为2.0已经开发完毕而且构架与1.0完全不同,但是有些使用者喜欢这种简洁和简便,应大家的要求,美化和优化了一些不足之处。后台更加简洁美观。
from bs4 import BeautifulSoup
import re
import requests
song_api_path = '/Taylor-swift-cardigan-lyrics'
page_url = "https://genius.com" + song_api_path # 注意:应使用 https 而非 http(Genius 强制 HTTPS)
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'} # 避免 403
page = requests.get(page_url, headers=headers)
soup = BeautifulSoup(page.text, "html.parser")
# 查找所有 Lyrics__Container 类的 div(注意:是 find_all,不是 find)
divs = soup.find_all("div", class_=lambda value: value and re.search(r'^Lyrics__Container', value))
# 合并所有容器的文本,用双换行分隔不同段落,增强可读性
all_text = '\n\n'.join(div.get_text(separator='\n').strip() for div in divs)
print(all_text)? 关键注意事项:
- ✅ 必须用 find_all():确保无遗漏任何容器;
- ✅ 添加 User-Agent 请求头:Genius 会拦截无头浏览器请求(否则可能返回空页或 403 错误);
- ✅ 使用 https:// 协议:http://genius.com 会重定向,但显式使用 HTTPS 更可靠;
- ✅ .strip() 清理每段首尾空白:避免因 HTML 冗余空格导致多余空行;
- ⚠️ 避免过度依赖正则匹配类名:若未来 Genius 改变类命名规则(如去掉前缀),建议结合更稳定的结构特征(如父容器 ID #lyrics-root 或 data-lyrics-container 属性)做兜底定位。
? 进阶提示:若需保留原始段落语义(如自动识别 [Verse 1]、[Chorus] 标签),可在 get_text() 后辅以正则清洗或使用 div.find_all(['br', 'span', 'a']) 进行结构化提取——但对纯歌词抓取,上述方案已稳定覆盖 99% 场景。
综上,问题本质不是 BeautifulSoup “失效”,而是对目标 DOM 结构理解偏差。掌握 find() 与 find_all() 的语义差异,并结合网站实际 HTML 组织方式,即可高效、鲁棒地提取完整内容。








