ac自动机核心是trie树加bfs构建fail指针:先插入模式串建trie,再用队列bfs为每个节点计算fail——u的子节点v的fail指向fail[u]向下找v->ch的子节点,找不到则继续跳fail链;node需含next[26]/map、fail、end_id;匹配时每步沿fail链回溯收集所有end_id,支持重叠匹配;内存宜用静态数组预分配,end_id用int标识单匹配,多匹配另设output映射。

AC自动机核心结构怎么建:Node设计和fail指针构造
AC自动机本质是Trie树 + BFS构建的fail指针,不是靠递归或暴力回溯。关键在两个动作:插入所有模式串建Trie,再用BFS给每个节点算fail指针。
常见错误是把fail写成“父节点的子节点匹配失败就跳到父节点的fail”,漏掉“继续往下找子节点”这步——正确逻辑是:当前节点u的子节点v,其fail[v] = fail[u]向下找v->ch对应的子节点,找不到就继续跳fail[fail[u]],直到根或找到为止。
-
Node里至少存next[26](或unordered_map<char node></char>)、fail、end_id(标记是否为某模式串结尾,可存多个ID) - 建
fail必须用队列BFS,不能DFS;否则深度不够,上层fail还没算好,下层就依赖它 - 根节点
fail指向自身或nullptr,但后续遍历中要特殊处理,避免空指针解引用
多模式匹配时怎么跑文本:边走边跳fail,别只走next
单靠Trie的next只能匹配前缀,AC自动机真正发力在失配时沿fail跳转并累积输出。文本指针每走一位,都要从当前节点出发,不断跳fail,收集所有经过的end_id。
典型错误是“匹配到一个模式串就重置节点回根”,这会漏掉重叠匹配(如文本"ababab"中模式"abab"和"baba");或者只检查当前节点end_id,不向上跳fail链查更短的后缀模式。
立即学习“C++免费学习笔记(深入)”;
- 对文本每个字符
c,先尝试cur = cur->next[c];若为空,则cur = cur->fail直到cur非空或到根 - 然后从该
cur开始,沿fail链向上遍历(用while循环),只要节点end_id != -1就记录匹配 - 如果模式串允许重叠(绝大多数场景都允许),不能在匹配后
cur = root,必须保持当前cur继续跑下一个字符
内存和性能怎么控:静态数组 vs 指针,以及end_id怎么存
AC自动机最耗资源的是节点数,最大可能达所有模式串总长度(比如10万串,平均长50,节点就500万)。用动态new Node易触发频繁分配,用静态数组预分配更稳,但得估算上限。
end_id如果只存一个int,就无法支持同一位置匹配多个模式;若用vector<int></int>又增内存开销。实际项目中常用位图或单独的output[]数组映射。
- 小写字母场景直接用
Node* next[26],访问快;含大小写/数字时改用unordered_map<char node></char>,但哈希有常数开销 - 静态数组建议按
max_nodes = total_pattern_length + 10预分配,配合pool[idx]和alloc()管理,避免new/delete抖动 -
end_id推荐存为int,-1表示无,>=0表示唯一ID;多个模式需匹配则另建vector<vector>> outputs</vector>,以节点ID为索引
调试fail指针总出错?用BFS序打印+手动验3个节点
fail指针错,90%是因为BFS入队顺序或空节点处理不对。最有效验证法:打印BFS序中前3个非根节点的fail指向,并手算它们应该跳去哪。
例如插入"he"、"she"、"his"、"hers",节点"she"结尾的s-h-e,其fail应指向根下'e'(即"he"的结尾),而不是"h"或nullptr。一旦发现跳到了不存在的字符路径,说明BFS时没处理next[c] == nullptr的补全逻辑。
- BFS循环内,对每个出队节点
u,遍历所有c,若u->next[c]存在,则设其fail;若不存在,显式设u->next[c] = u->fail->next[c](前提是u->fail已设好) - 打印时加一句:
printf("node[%d] fail→%d (ch='%c')\n", idx, fail_idx, c),比GDB单步快得多 - 测试用例务必包含前缀/后缀重叠,如
"abc"和"bc",否则fail链根本不会被触发
C++里AC自动机的坑不在算法本身,而在fail指针构造时对空next的补全逻辑、匹配时对fail链的完整遍历、以及节点内存布局对缓存友好性的隐性影响。这些地方一错,表现就是漏匹配、崩溃、或速度骤降几倍。










