
本文介绍如何使用itext 5在将java源文件转换为pdf时,精准识别并高亮关键字(如int、double、new等),避免ansi转义序列失效问题,通过分词+条件渲染实现语法着色效果。
本文介绍如何使用itext 5在将java源文件转换为pdf时,精准识别并高亮关键字(如int、double、new等),避免ansi转义序列失效问题,通过分词+条件渲染实现语法着色效果。
在Java项目中,将源代码(.java文件)导出为带语法高亮的PDF是一项常见需求——尤其适用于教学文档、技术报告或自动化代码归档场景。但直接使用ANSI颜色码(如u001B[34m)在控制台有效,在iText中却完全无效:PDF不解析ANSI转义序列,且iText的Chunk或Phrase不支持内联样式替换(类似String.replace())。因此,必须采用语义化分词 + 关键字判定 + 多字体渲染的策略。
核心思路:按语法边界安全分词,而非简单空格分割
Java关键字(如double)可能出现在复合结构中(如double[]、doubleValue()),若用split(" ")或正则W+会破坏词法完整性,导致double被截断或与符号混杂。解决方案是使用零宽断言正则进行“无损切分”,保留每个关键字及其紧邻的语法符号(如[、(、.、=、换行符等)作为独立单元:
String[] words = doc.split("(?=\[)|(?=\.)|(?<=\()|(?=\=)|(?<=\n+)|(?= )|(?<= )");该正则含义如下:
- (?=\[):在左方括号[前断开(前瞻)
- (?=\.):在点号.前断开
- (?
- (?=\=):在等号=前断开
- (?
- (?= )|(?
这样可保证double[]被拆为{"double", "[", "]"},if (x == 1)被拆为{"if", " ", "(", "x", " ", "==", " ", "1", ")"},从而让isKeyword("double")准确返回true,而isKeyword("[")返回false。
立即学习“Java免费学习笔记(深入)”;
关键字判定与字体配置
我们维护一个标准Java关键字列表(含83个关键字,覆盖Java 7+),并通过精确字符串匹配判定(注意:必须用equals()而非contains(),防止do误匹配double):
private static boolean isKeyword(String word) {
String keywords = "abstract,continue,for,new,switch,assert,default,if,package,synchronized," +
"boolean,goto,private,this,break,double,implements,protected,throw," +
"byte,else,import,public,throws,case,enum,instanceof,return,transient," +
"catch,extends,int,short,try,char,final,interface,static,void,class," +
"finally,long,strictfp,volatile,const,float,native,super,while,do";
return Arrays.asList(keywords.split(",")).contains(word);
}字体方面,需定义两套Font对象:
- 常规字体:使用嵌入的Courier New(Windows路径C:WindowsFontscour.ttf),确保等宽与跨平台显示一致;
- 关键字字体:复用同一BaseFont,但设置加粗(Font.BOLD)与蓝色(new BaseColor(0, 0, 255)):
BaseFont fontStd = BaseFont.createFont("C:\Windows\Fonts\cour.ttf",
BaseFont.WINANSI, BaseFont.EMBEDDED);
Font fontRegular = new Font(fontStd, 13);
Font fontKeyword = new Font(fontStd, 13, Font.BOLD, new BaseColor(0, 0, 255));完整PDF生成流程
逐词遍历分词结果,对每个word调用isKeyword(),动态创建对应样式的Chunk,并封装为Phrase添加至文档。关键注意事项:
- ✅ 必须为每个Chunk单独创建Phrase再add(),不可累积到单个Paragraph——否则换行和间距会异常;
- ✅ 空格、换行符等分隔符也需作为独立Chunk添加,以维持原始代码缩进与格式;
- ⚠️ Windows字体路径需确保存在;若部署到Linux/macOS,请替换为系统等宽字体路径(如/usr/share/fonts/truetype/dejavu/DejaVuSansMono.ttf)并改用BaseFont.IDENTITY_H编码支持Unicode;
- ⚠️ iText 5已停止维护,生产环境建议升级至iText 7,并使用com.itextpdf.kernel.pdf.PdfDocument与com.itextpdf.layout.element.Text重构(原理相同,API更现代)。
public static void createPDF(String doc, String loc) {
try {
BaseFont fontStd = BaseFont.createFont("C:\Windows\Fonts\cour.ttf",
BaseFont.WINANSI, BaseFont.EMBEDDED);
Font fontRegular = new Font(fontStd, 13);
Font fontKeyword = new Font(fontStd, 13, Font.BOLD, new BaseColor(0, 0, 255));
String targetLoc = loc.replace(".java", ".pdf");
Document document = new Document();
PdfWriter.getInstance(document, new FileOutputStream(targetLoc));
document.open();
String[] words = doc.split("(?=\[)|(?=\.)|(?<=\()|(?=\=)|(?<=\n+)|(?= )|(?<= )");
for (String word : words) {
Font font = isKeyword(word.trim()) ? fontKeyword : fontRegular;
Chunk chunk = new Chunk(word, font); // 注意:word含空格/换行,直接传入保持原格式
document.add(new Phrase(chunk));
}
document.close();
} catch (Exception e) {
e.printStackTrace();
}
}通过此方案,您即可生成具备基础语法高亮的PDF代码文档——关键字以蓝色加粗呈现,其余代码保持默认黑色等宽字体,格式严格对齐源文件。如需扩展(如字符串字面量红色、注释灰色),只需在分词逻辑后增加对应规则分支,保持模块化设计即可。










