用C++手写轻量JSON解析器需分Tokenizer和Parser两步:先实现词法分析切出Token,再用递归下降法解析为std::variant结构;支持对象、数组、字符串(含\t\n\\\"转义)、数字(含科学计数)、布尔和null,不支持注释与尾随逗号。

用C++手写一个轻量JSON解析器,核心在于理解JSON语法结构、设计清晰的Token流和递归下降解析逻辑。不需要依赖第三方库,从零开始能帮你深入掌握词法分析与语法分析的本质。
一、明确JSON支持的基本结构
标准JSON包含:对象({})、数组([])、字符串("")、数字(整数/浮点)、布尔(true/false)、null。不需支持注释或尾随逗号,先做最小可行版本。
- 字符串需处理转义:\t \n \\ \" 等(至少实现这4种)
- 数字支持带符号整数、小数、科学计数法(如 -123、3.14、1e-5)
- 布尔字面量必须全小写,大小写敏感
二、分两步:Tokenizer + Parser
不要试图一步解析。先切出Token(词法分析),再按语法规则组装成树(语法分析)——这是最易调试、最符合直觉的路径。
- Tokenizer:遍历输入字符串,跳过空白,识别双引号字符串、大括号、方括号、冒号、逗号、true/false/null、数字。每个Token带类型(STRING、NUMBER、LBRACE等)和原始值(string_view或std::string)
- Parser:用递归下降法。例如 parse_value() 根据当前Token类型分发:遇到 { 调用 parse_object(),[ 调用 parse_array()," 调用 parse_string(),等等
- 维护一个 Token 迭代器(如 vector
::const_iterator& it),每次 consume() 后 it++,错误时抛 std::runtime_error 并附带位置信息(行/列)
三、数据结构设计:用variant+vector+map足够
避免过度设计。C++17起用 std::variant 最简洁:
立即学习“C++免费学习笔记(深入)”;
(示例)using JsonValue = std::variant<:nullptr_t bool double std::string std::vector>, std::map<:string jsonvalue>>;
- null → nullptr_t
- true/false → bool
- 数字统一存 double(int可隐式转,精度够日常用)
- 对象用 std::map
(保持插入顺序可用 std::unordered_map,但标准JSON对象无序,map更稳妥) - 数组用 std::vector
四、关键细节:字符串转义与数字解析
这两处最容易出bug,建议单独封装函数:
- parse_string():遇到 " 后,逐字符读取直到下一个 ";遇 \ 后查表转换:'\\'→'\\','"'→'"','n'→'\n','t'→'\t';其他 \x 形式可暂报错
- parse_number():用 std::from_chars(C++17)最可靠,比 stringstream 快且不抛异常;若环境不支持,可用 strtod + errno 检查,注意处理前导空格和结尾非法字符
- 所有解析函数应在消费Token后立即校验 next token 是否合法(如对象后应为 } 或 ,),提前失败比深层嵌套后报错更友好
不复杂但容易忽略。写完后用 RFC 8259 的典型样例(如空对象、嵌套数组、带转义的中文字符串)验证,再逐步加边界测试——比如超长数字、缺失引号、不闭合括号。稳住结构,小步迭代,你就已经走在真正理解解析器的路上了。











