0

0

如何在Golang中开发一个简单的Markdown解析器 Go语言文本处理实战

P粉602998670

P粉602998670

发布时间:2026-03-11 00:49:36

|

130人浏览过

|

来源于php中文网

原创

因为要“简单”——可控、可调试、低依赖,而非功能完整;核心仅块解析与行内解析,需状态机处理嵌套、转义及html安全输出。

如何在golang中开发一个简单的markdown解析器 go语言文本处理实战

为什么不用现成的 blackfridaygoldmark

因为你要的是“简单”——不是功能完整,而是可控、可调试、能嵌入到小工具里不带一堆依赖。现成库动辄几百个文件,goldmark 的扩展机制绕三圈才配好一个自定义节点,blackfriday 已归档且不支持 Go modules 早期版本的路径解析问题容易卡住。真要动手写,核心就两件事:分块(block parsing)和行内(inline parsing),先搞定段落、标题、列表这三类最常写的结构就行。

strings.Split 不能直接切 Markdown 块,得按空行+缩进状态走

Markdown 块级元素(比如段落、列表项、代码块)靠空行分隔,但空行可能被缩进干扰,比如 YAML front matter 后紧接一个缩进的列表,strings.Split 一刀切会把整个 front matter 和后续内容混成一块。正确做法是逐行扫描,维护一个 inList 状态和当前缩进深度:

  • 遇到以 - * 或数字加 . 开头的行,且缩进 ≤ 当前列表层级,就开启新列表项
  • 连续空行只算一个分隔符;单个空行在代码块里不算分隔(得看是否在 ``` 内)
  • strings.TrimSpace 判断空行,别用 == "",因为可能含 \t 或 \r

行内解析必须用状态机,正则替换会吃掉嵌套强调

比如 *a *b* c* 这种嵌套斜体,用 regexp.ReplaceAllString 两次(先处理 ** 再处理 *)会错乱。实际得边扫边记栈:inEminStronginCode 三个布尔值,遇到 * 就翻转对应状态,同时记录起始位置。关键细节:

Notion Sites
Notion Sites

Notion 推出的AI网站构建工具,允许用户将 Notion 页面直接发布为完整网站。

下载
  • ` 是行内代码的边界,但两个反引号 `` 表示空格允许的代码片段,得单独判断长度
  • 链接 [text](url) 的右括号必须匹配最内层左括号,不能靠正则捕获组硬写,得数括号嵌套层数
  • 转义字符 \* 要在状态机里跳过,否则会被当成强调符起点

输出 HTML 时别拼字符串,用 html.EscapeString 处理所有原始文本

用户输入的 Markdown 可能含 <script></script><img onerror="alert(1)" alt="如何在Golang中开发一个简单的Markdown解析器 Go语言文本处理实战" >,如果直接把解析后的文本塞进 "<p>" + text + "</p> <p><span>立即学习</span>“<a href="https://pan.quark.cn/s/00968c3c2c15" style="text-decoration: underline !important; color: blue; font-weight: bolder;" rel="nofollow" target="_blank">go语言免费学习笔记(深入)</a>”;</p>",XSS 就来了。必须对所有非标签部分调用 html.EscapeString

  • 只有你自己生成的 HTML 标签(如 "<strong>"</strong>"
  • )可以直写
  • 用户写的链接 URL 要额外过一遍 url.PathEscapenet/urlQueryEscape,防止 javascript:alert(1) 注入
  • 代码块内容用 html.EscapeString 后再换行转 <br>,别漏掉末尾换行符

真正难的不是语法识别,是状态同步——块级缩进状态、行内嵌套栈、HTML 转义边界,这三个地方一松动,输出就不可信。写完跑一遍 go test -v 加 20 个混合测试用例,重点看 *a **b* c**- `x y`、含 & 的段落,比补文档重要得多。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

210

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

247

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

356

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

214

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

407

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

490

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

200

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

1418

2025.06.17

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

4

2026.03.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 6万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号