中文乱码主因是UTF-8与GBK编码混用:一、UTF-8覆盖全球字符,GBK仅限约2.1万汉字;二、UTF-8变长字节(1–4字节),GBK固定双字节;三、UTF-8跨平台兼容性强,GBK在Linux/macOS支持弱;四、网页声明须与文件实际编码严格一致;五、编辑器默认编码各异,需手动统一设为UTF-8。

如果您在开发网页或处理文本文件时发现中文显示为乱码、符号错位或浏览器提示编码不匹配,则很可能是UTF-8与GBK混录编码用或误配导致。以下是两个核心差异的详细对照说明:
一、字符集覆盖范围不同
UTF-8是Unicode字符集的标准实现方式,设计目标是囊括全球所有书写系统,包括简体中文、繁体中文、日文、韩文、阿拉伯文、希伯来文、梵文、藏文、蒙古文、emoji表情符号及各类数学与GBK则属于中国国家标准体系下的扩展规范,以GB2312为基础,主要覆盖约2.1万个常用汉字及部分日韩字符,但对生侨字(如“龘”“䶮”)、外交文字及国际通用符号支持极为有限。
1、在古籍数字化项目中,若文含“










