BeautifulSoup 提取 Genius 歌词不全？原因与完整解决方案

心靈之曲

发布时间：2026-02-28 11:45:23

374人浏览过

来源于php中文网

原创

BeautifulSoup 提取 Genius 歌词不全？原因与完整解决方案

使用 BeautifulSoup 解析 Genius 网站歌词时，find() 仅返回首个匹配的，而其歌词被拆分在多个 Lyrics__Container 类的 div 中，需改用 find_all() 并合并所有文本。

使用 beautifulsoup 解析 genius 网站歌词时，`find()` 仅返回首个匹配的 `

`，而其歌词被拆分在多个 `lyrics__container` 类的 div 中，需改用 `find_all()` 并合并所有文本。

Genius 网站为提升可维护性与响应式渲染，将长篇歌词（尤其是含 Verse/Chorus/Refrain 等结构化段落）动态拆分为多个

元素，每个均带有以 Lyrics__Container 开头的 CSS 类名（如 Lyrics__Container-sc-13h76k4-0 kxvKfE）。这是关键设计细节——并非 HTML 结构异常，而是有意为之的多容器布局。

你原代码中使用：

div = soup.find("div", class_=lambda value: value and re.search(r'^Lyrics__Container', value))

find() 方法仅定位并返回第一个匹配的元素，因此只能提取首段（通常为 Verse 1 至 Verse 2），后续容器被完全忽略。

✅ 正确做法是使用 find_all() 获取全部匹配容器，并逐个提取文本后拼接：

phpweb1.0 美化简洁版

phpweb1.0基于php+mysql+smarty开发的企业解决方案,总体感觉简洁快速,适合小型企业的建站方案，也适合初学者学习。之前发布过phpweb1.0的原始版本,仅提供大家交流和学习,但很多的爱好者提出了一些不足和好评,本不想继续开发1.0,因为2.0已经开发完毕而且构架与1.0完全不同,但是有些使用者喜欢这种简洁和简便，应大家的要求,美化和优化了一些不足之处。后台更加简洁美观。

下载

from bs4 import BeautifulSoup
import re
import requests

song_api_path = '/Taylor-swift-cardigan-lyrics'
page_url = "https://genius.com" + song_api_path  # 注意：应使用 https 而非 http（Genius 强制 HTTPS）
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}  # 避免 403
page = requests.get(page_url, headers=headers)
soup = BeautifulSoup(page.text, "html.parser")

# 查找所有 Lyrics__Container 类的 div（注意：是 find_all，不是 find）
divs = soup.find_all("div", class_=lambda value: value and re.search(r'^Lyrics__Container', value))

# 合并所有容器的文本，用双换行分隔不同段落，增强可读性
all_text = '\n\n'.join(div.get_text(separator='\n').strip() for div in divs)

print(all_text)

? 关键注意事项：

✅ 必须用 find_all()：确保无遗漏任何容器；
✅ 添加 User-Agent 请求头：Genius 会拦截无头浏览器请求（否则可能返回空页或 403 错误）；
✅ 使用 https:// 协议：http://genius.com 会重定向，但显式使用 HTTPS 更可靠；
✅ .strip() 清理每段首尾空白：避免因 HTML 冗余空格导致多余空行；
⚠️ 避免过度依赖正则匹配类名：若未来 Genius 改变类命名规则（如去掉前缀），建议结合更稳定的结构特征（如父容器 ID #lyrics-root 或 data-lyrics-container 属性）做兜底定位。

? 进阶提示：若需保留原始段落语义（如自动识别 [Verse 1]、[Chorus] 标签），可在 get_text() 后辅以正则清洗或使用 div.find_all(['br', 'span', 'a']) 进行结构化提取——但对纯歌词抓取，上述方案已稳定覆盖 99% 场景。

综上，问题本质不是 BeautifulSoup “失效”，而是对目标 DOM 结构理解偏差。掌握 find() 与 find_all() 的语义差异，并结合网站实际 HTML 组织方式，即可高效、鲁棒地提取完整内容。

相关标签:

beautifulsoup dom http https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何消除 inline-block 元素与其容器之间的底部空白间隙下一篇：Django 测试失败排查：URL 反向解析与 HTML 结构匹配问题

作者最新文章

如何安全移除待办列表中的最后一个任务元素

2026-02-25 15:58

PHP 中为 include 文件提供变量类型提示以支持 IDE 自动补全

2026-02-25 16:07

回合制弹幕游戏《超时空地牢》Steam新品节全新试玩版现已推出

2026-02-25 16:24

游戏直播平台Twitch公布违规封禁新规惩罚限制放缓

2026-02-25 16:30

如何在 Go 中设计支持可修改字段的结构体（值语义与指针语义的正确选择）

2026-02-25 16:31

如何在 Pandas 中精确重排合并后 DataFrame 的列顺序

2026-02-25 16:36

JavaScript 中动态获取嵌套对象内所有数组长度的完整方法

2026-02-25 16:52

PHP 8 中正确忽略被抑制错误的实践方法

2026-02-25 16:59

《极限竞速：地平线6》生态区域展示宣传片

2026-02-25 17:24

如何在 PHP 中正确获取当前网页的完整 URL

2026-02-25 17:32

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

DOM是什么意思

dom的英文全称是documentobjectmodel，表示文件对象模型，是w3c组织推荐的处理可扩展置标语言的标准编程接口；dom是html文档的内存中对象表示，它提供了使用javascript与网页交互的方式。想了解更多的相关内容，可以阅读本专题下面的文章。

4037

2024.08.14

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

482

2023.11.09

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

447

2023.11.14

HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容，可以阅读本专题下面的文章。

3150

2024.03.12

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2734

2024.08.16

http与https有哪些区别

2734

2024.08.16

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

Golang 工程化架构设计：可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则，涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术，帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板