
本文介绍如何用正则表达式安全地解析 PostgreSQL 一维数组的字符串表示(如 {"a,b","c",d}),将其标准化为 JSON 兼容格式,便于 Go 等不原生支持 PG 数组的 ORM 正确反序列化。
本文介绍如何用正则表达式安全地解析 postgresql 一维数组的字符串表示(如 `{"a,b","c",d}`),将其标准化为 json 兼容格式,便于 go 等不原生支持 pg 数组的 orm 正确反序列化。
PostgreSQL 在 text[] 类型字段以字符串形式返回数组时(例如通过 SELECT something FROM test),会采用一种特定的、非标准的文本格式:元素用双引号包裹(仅当含逗号、空格或引号等特殊字符时),并以花括号包围,元素间用英文逗号分隔。典型示例如下:
{"hello world","foo,bar",baz,"qu"oted"}该格式不是 JSON,也不符合 CSV 规范(无转义机制说明),因此不能直接使用 json.Unmarshal 或 csv.NewReader 安全解析。尤其需注意:
- 未加引号的元素(如 baz)可能包含空格但未被引号包裹;
- 引号内允许出现转义双引号("),但 PostgreSQL 实际输出中默认不转义(除非显式使用 ARRAY_TO_STRING 配合自定义逻辑);
- 原始问题明确假设「引号不会在值内出现」(即无嵌套引号),这是关键前提。
✅ 推荐正则预处理方案(Go 可用)
核心思路是:将所有数组元素统一包裹在双引号中,并确保逗号始终位于引号外作为分隔符,从而构造出类 JSON 的字符串(如 ["hello world","foo,bar","baz","qu"oted"]),再交由 json.Unmarshal 解析。
以下正则表达式可在 Go 中用于插入缺失的引号(适用于 regexp.ReplaceAllString):
import "regexp"
// 匹配所有“位于元素边界处、且不在引号内的逗号”前后位置,
// 并在每个元素(无论是否已引号)两侧补上双引号(再统一去重)
const pgArrayPattern = `(?<=^{|,)([^",{}]+?)(?=,|$|})`
func parsePGArray(s string) ([]string, error) {
// Step 1: 提取所有元素(支持带空格/逗号的未引号项)
re := regexp.MustCompile(pgArrayPattern)
matches := re.FindAllStringSubmatch([]byte(s), -1)
// Step 2: 清洗每个匹配项:去除首尾空格,去掉已有引号(保留内部转义)
var result []string
for _, m := range matches {
elem := strings.TrimSpace(string(m))
// 去除首尾双引号(若存在),注意:不处理内部 " —— 因PG默认不输出转义
if len(elem) >= 2 && elem[0] == '"' && elem[len(elem)-1] == '"' {
elem = elem[1 : len(elem)-1]
}
result = append(result, elem)
}
return result, nil
}✅ 为什么不用复杂断言正则?
原答案提供的 (?不被支持(Go 使用 RE2 引擎,禁用回溯与多数环视)。因此必须采用更稳健、RE2 兼容的提取式正则(如上 pgArrayPattern),它基于明确的边界锚点 ^{|, 和 ,|$|},可靠提取所有合法元素。
✅ 完整 Go 示例(含错误处理)
package main
import (
"fmt"
"regexp"
"strings"
)
func ParsePGTextArray(s string) ([]string, error) {
if !strings.HasPrefix(s, "{") || !strings.HasSuffix(s, "}") {
return nil, fmt.Errorf("invalid PG array format: missing braces")
}
body := s[1 : len(s)-1] // 去掉 {}
if body == "" {
return []string{}, nil
}
// 匹配:以 { 或 , 开头,以 , 或 } 或结尾结束,中间是非 , { } " 的任意字符(惰性)
re := regexp.MustCompile(`([^",{}]+)`)
matches := re.FindAllString(body, -1)
var res []string
for _, m := range matches {
e := strings.TrimSpace(m)
if e == "" {
continue
}
// 处理已引号包裹的元素:剥掉外层引号
if len(e) >= 2 && e[0] == '"' && e[len(e)-1] == '"' {
e = e[1 : len(e)-1]
}
res = append(res, e)
}
return res, nil
}
func main() {
input := `{"bla, bla",bla,"bu bu",bu}`
arr, err := ParsePGTextArray(input)
if err != nil {
panic(err)
}
fmt.Printf("%q
", arr) // ["bla, bla" "bla" "bu bu" "bu"]
}⚠️ 重要注意事项
- 仅限一维 text[]:本方案不处理嵌套数组(如 {{1,2},{3,4}})或非 text 类型(如 int[] 的数字解析需额外类型转换)。
- 禁止引号内嵌套:PostgreSQL 默认输出中,text[] 元素若含双引号,会以 " 形式转义;但标准 array_to_string() 不生成此格式。如业务中存在手动拼接含 " 的场景,需先用 strings.ReplaceAll(s, "\"","`) 预处理。
- 性能建议:对高频调用场景,可将 regexp.MustCompile 提升为包级变量,避免重复编译。
- 更优替代方案:长期建议切换至支持原生数组的驱动(如 jackc/pgx),其 pgtype.TextArray 可自动完成安全解析,彻底规避正则风险。
通过上述方法,你可以在不修改数据库 schema 的前提下,稳健地桥接 PostgreSQL 数组与 Go 生态,兼顾安全性与可维护性。










