用状态机逐字符解析csv可正确处理引号包裹、双引号转义和跨行字段;核心是维护in_quotes状态,区分引号内外的逗号与换行;封装为read_csv返回vector,分离文件读取与字段解析逻辑。

用 C++ 实现一个简单的 CSV 解析器,核心在于正确处理逗号分隔、引号包裹、换行和转义等常见规则。不需要依赖第三方库,用标准库 <fstream></fstream>、<string></string> 和 <vector></vector> 就能完成——关键是把“字段解析逻辑”和“文件读取逻辑”分开设计。
理解 CSV 的基本规则(避免踩坑)
标准 CSV(RFC 4180)中,字段可能被双引号 " 包裹,此时内部的双引号要写成两个(""),换行符也可出现在引号内。例如:
"name","score","note" "张三",95,"likes ""C++""" "李四",87,"ok"
这意味着不能简单用 std::getline(file, line) + std::stringstream 按逗号切分——会错判引号内的逗号或换行。
逐字符状态机解析(轻量可靠)
推荐用状态机方式逐字符扫描:维护当前是否在引号内(in_quotes)、是否刚遇到引号(用于识别 "" 转义)。伪逻辑如下:
立即学习“C++免费学习笔记(深入)”;
- 遇到
":切换in_quotes;若下一个也是",跳过一个,当前字段加一个" - 遇到
,且不在引号内:当前字段结束 - 遇到
\n或文件尾且不在引号内:本行结束 - 其他字符:直接追加到当前字段
这样能自然支持跨行字段和嵌套引号,代码约 50 行即可实现健壮基础版。
封装为易用接口(读文件 → 行向量 → 字段向量)
定义清晰结构,比如:
using CSVRow = std::vector<std::string>; using CSVData = std::vector<CSVRow>; CSVData read_csv(const std::string& filename);
函数内部打开文件、逐行解析、每行调用解析函数 parse_csv_line(const std::string&),返回 CSVRow。注意:文件以 std::ios::in 打开,无需二进制模式;中文系统建议用 UTF-8 编码保存 CSV,C++ 标准库不自动处理 BOM,但多数现代编辑器和 Excel 可识别。
简单示例:只处理无引号、无换行的 CSV(快速上手)
如果确定数据干净(如导出日志、实验数据),可用简化版:
std::ifstream fin("data.csv");
std::string line;
while (std::getline(fin, line)) {
std::vector<std::string> fields;
std::stringstream ss(line);
std::string field;
while (std::getline(ss, field, ',')) {
// 去除首尾空格(可选)
field.erase(0, field.find_first_not_of(" \t"));
field.erase(field.find_last_not_of(" \t") + 1);
fields.push_back(field);
}
// 处理 fields...
}
这种写法简洁,但遇到 "a,b",c 就会错误拆成三个字段。仅限受控环境使用。
基本上就这些。真正健壮的 CSV 解析不复杂,但容易忽略引号转义和跨行场景。按状态机写一遍,以后读配置、导报表、做小工具都够用。











