如何使用Java实现文本内容统计_Java字符串处理项目说明

P粉602998670

发布时间：2026-01-28 14:06:15

563人浏览过

来源于php中文网

原创

Java统计文本成分需手动分类：英文及ASCII字母用isLetter()，中文用CJK_UNIFIED_IDEOGRAPHS判断，数字需区分半角与全角，标点需排除空格等空白字符，大文件须流式处理并复用正则Pattern。

如何使用java实现文本内容统计_java字符串处理项目说明

统计中文字符、英文字符、数字和标点的出现次数

Java 中没有现成的「一键统计文本成分」方法，得靠 Character 类逐个判断。关键不是遍历快慢，而是分类逻辑是否覆盖边界情况。

Character.isLetter(c) 能识别中英文字符（包括带音调的拉丁字母），但不识别中文标点（如“，”“。”，它们属于 PUNCTUATION）
Character.isDigit(c) 只匹配 ASCII 数字 '0'–'9'，不匹配全角数字（如“１”），需额外判断 Unicode 范围 \uFF10–\uFF19
中文字符不能靠 isLetter() 判断——汉字返回 false，正确方式是检查 Unicode Block：Character.UnicodeBlock.of(c) == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
空格、制表符、换行符属于 Character.isWhitespace(c)，别误归为标点

String text = "Hello世界123！";
Map count = new HashMap<>();
for (char c : text.toCharArray()) {
    if (Character.isLetter(c)) {
        count.merge("letter", 1, Integer::sum);
    } else if (Character.isDigit(c)) {
        count.merge("digit", 1, Integer::sum);
    } else if (Character.UnicodeBlock.of(c) == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS) {
        count.merge("chinese", 1, Integer::sum);
    } else if (Character.isWhitespace(c)) {
        count.merge("whitespace", 1, Integer::sum);
    } else {
        count.merge("punctuation", 1, Integer::sum);
    }
}

按词频统计（含中文分词基础处理）

纯用 String.split() 对中文无效——它按空格/标点切，但“我喜欢编程”会变成一个长词。真要词频，至少得上简易规则：按中文字符、英文单词、数字三类分别提取。

正则 [\\u4e00-\\u9fa5]+ 匹配连续中文字符（覆盖常用汉字）
[a-zA-Z]+ 提取英文单词，注意加 Pattern.CASE_INSENSITIVE 更稳妥
\\d+ 提取连续数字，避免单个数字被拆散
忽略大小写统一转小写，但中文无需此步
停用词（如“的”“了”）需手动过滤，Java 标准库不提供内置停用词表

String text = "Java很强大，Java也很好学！";
List words = new ArrayList<>();
// 匹配中文词
Matcher cnMatcher = Pattern.compile("[\\u4e00-\\u9fa5]+").matcher(text);
while (cnMatcher.find()) words.add(cnMatcher.group());
// 匹配英文单词
Matcher enMatcher = Pattern.compile("[a-zA-Z]+").matcher(text);
while (enMatcher.find()) words.add(enMatcher.group().toLowerCase());
// 统计
Map freq = words.stream()
    .filter(w -> w.length() > 1) // 过滤单字（可选）
    .collect(Collectors.groupingBy(w -> w, Collectors.counting()));

处理大文件时避免内存溢出

用 Files.readAllLines() 读 GB 级文本直接 OOM。必须流式处理，且避免在循环里反复创建 StringBuilder 或正则对象。

星绘

豆包旗下 AI 写真、P 图、换装和视频生成

下载

用 Files.lines(Paths.get("file.txt")) 返回 Stream，配合 forEach 或 reduce
正则 Pattern 实例应提前编译并复用，不要在循环里写 Pattern.compile(...)
统计 Map 推荐用 ConcurrentHashMap（多线程安全），或单线程下用 HashMap + merge() 避免 get-put 冗余操作
若需按行号定位，改用 BufferedReader，它比 lines() 更易控制异常和关闭资源

Pattern wordPattern = Pattern.compile("[\\u4e00-\\u9fa5]+|[a-zA-Z]+|\\d+");
try (Stream lines = Files.lines(Paths.get("huge.txt"))) {
    lines.flatMap(line -> wordPattern.matcher(line).results()
            .map(MatchResult::group)
            .map(String::toLowerCase))
        .filter(word -> !word.isEmpty())
        .collect(Collectors.toConcurrentMap(
            word -> word,
            word -> 1L,
            Long::sum
        ));
}

区分全角/半角字符与编码陷阱

同一个“.”，ASCII 点（.，U+002E）和中文句号（。，U+3002）Unicode 编码不同，String.equals() 判定为不等。项目若涉及用户输入或混合来源文本，这点极易漏测。

立即学习“Java免费学习笔记（深入）”；

读文件时务必指定编码：Files.readAllLines(path, StandardCharsets.UTF_8)，否则 Windows 默认 GBK 会把 UTF-8 文件读成乱码，导致字符识别全错
全角数字、字母、标点有独立 Unicode 区段（如全角 A 是 \uFF21），Character.isLetter() 对它们返回 false，需单独处理
测试用例必须包含混合编码字符串，例如："abc１２３ＡＢＣ。！"，验证是否把全角字符归入对应类别
日文平假名、片假名属于 Character.UnicodeBlock.HIRAGANA / KATAKANA，若需求含日语，也要显式判断

实际跑通的关键，往往卡在「以为字符类型判断是黑盒，结果发现中文、全角、Unicode Block 各自有一套规则」。没在真实数据里试过全角混排和大文件流式读取，统计结果就不可信。

解决Docx4J 3.3.3处理Word文档出现“内容不可读”错误的方案

解决Docx4J 3.3.3生成Word文档的“不可读内容”错误：源码修补指南

解决Docx4J v3.3.3生成Word文档的“内容不可读”错误

Docx4j PDF转换中页眉页脚临时图片残留问题解析与规避

将 Docx4j 文档转换为 PDF 时如何处理临时图片文件

相关标签:

word java git windows 编码 win stream java实现标准库 red String foreach 字符串循环线程多线程 map 对象 ASCII windows

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：在Java里异常信息是否应该暴露给用户_Java安全设计说明下一篇：在Java里CAS机制是如何实现的_Java无锁并发解析

作者最新文章

css 盒模型 padding 导致内容溢出怎么办_通过 box sizing border box 解决

2026-01-28 13:08

css 想快速实现两栏可伸缩布局怎么办_利用 css flex 设置主副栏 flex-grow

2026-01-28 13:09

在Java中如何避免常见语法错误_Java新手语法问题解析

2026-01-28 13:09

css 外部样式文件命名有讲究吗_通过语义化命名提升可读性

2026-01-28 13:09

Golang如何进行序列化与反序列化_Golang encoding/gob包数据处理

2026-01-28 13:09

Go语言module是什么_Golang模块机制详解

2026-01-28 13:11

PDF如何给PDF页面添加贝茨编号并自定义前缀_在高级编辑功能中设置模板

2026-01-28 13:12

在Java里环境变量配置不生效怎么办_Java环境排错说明

2026-01-28 13:12

css 盒模型 border 会占用空间吗_通过盒模型计算规则理解尺寸变化

2026-01-28 13:14

Golang如何创建临时文件_Golang临时文件创建与管理

2026-01-28 13:14

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

443

2023.08.02

php中foreach用法

本专题整合了php中foreach用法的相关介绍，阅读专题下面的文章了解更多详细教程。

2025.12.04

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

298

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

212

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1500

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

623

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

613

2024.03.22