答案:因XML解析器不支持HTML预定义实体,需用字符引用或DTD声明解决。在XML中使用 时报错,是因标准仅支持5个内置实体,其余如 需显式定义;可用 替代或在DTD中声明,推荐使用Unicode编码或改用HTML解析器处理HTML内容。

在处理HTML或XML内容时,遇到“引用了未定义的实体‘nbsp’”这类错误,通常是因为解析器将HTML实体(如 )当作XML来处理,而标准XML不默认支持这些HTML预定义实体。
为什么会出现“nbsp”未定义的错误?
HTML中 是表示空格的命名实体,在浏览器中可以直接使用。但XML标准本身不包含 、等常见HTML实体的定义,除了&、、"、'这五个内置实体外,其他如 、©等都需要显式声明。
当你在纯XML文档或使用严格XML解析器(如DOMParser、SAX、JAXB等)解析包含 的内容时,若未定义该实体,就会报错“引用了未定义的实体‘nbsp’”。
HTML实体与XML实体的主要区别
HTML实体:HTML预定义了上百个命名实体,例如 、©、®等,浏览器内置支持,无需额外声明即可使用。
立即学习“前端免费学习笔记(深入)”;
XML实体:XML仅默认支持5个通用实体。其余实体必须在DTD(文档类型定义)中显式声明才能使用,否则会被视为错误。
例如以下XML会出错:
因为 未在DTD中定义。
解决方法:根据场景选择合适方案
要解决此问题,核心是避免在不支持的环境中使用未定义的HTML实体。以下是几种常用做法:
-
使用字符实体编号代替命名实体
用 替代 。这是Unicode空格字符的十进制编码,XML和HTML都支持,无需声明。 -
在XML中定义DTD
如果必须使用 ,可在XML顶部添加DTD声明:
]> 这样解析器就能识别 。但注意某些现代解析器出于安全考虑会禁用外部DTD。 -
替换为普通空格或CSS处理空白
如果不是为了保留多个连续空格,可直接用普通空格字符。若需控制排版,建议使用CSS的white-space属性。 -
预处理输入内容,转义或替换非法实体
在解析前,用程序将 替换为 或空格。适用于从HTML提取内容导入XML的场景。 -
使用HTML解析器而非XML解析器处理含HTML片段的内容
如果数据本质是HTML片段,应使用HTML兼容的解析器(如Jsoup、Cheerio),而不是严格XML工具。
开发建议与最佳实践
为避免此类问题,建议:
- 在XML中优先使用 而非 表示不间断空格。
- 尽量减少对命名实体的依赖,尤其是非ASCII字符可用UTF-8直接编码。
- 确保文档编码声明为UTF-8,并在文件中直接使用Unicode字符(如“©”),而非实体。
- 在前后端数据交换中,推荐JSON替代XML,避免实体处理复杂性。
基本上就这些。关键在于分清上下文——是HTML还是纯XML环境,再选择对应的实体处理方式。不复杂,但容易忽略。











