0

0

在Java中如何实现文本文件统计工具_Java文本处理项目说明

P粉602998670

P粉602998670

发布时间:2026-01-22 14:51:38

|

641人浏览过

|

来源于php中文网

原创

Files.lines()适合流式统计文本行数、字符数、单词数:行数用count();字符数累加每行length()(不含换行符);单词数用split("s+")并filter非空字符串。需处理编码异常、大文件OOM、中英文混合分词及wc兼容输出格式。

在java中如何实现文本文件统计工具_java文本处理项目说明

Files.lines() 读取并统计行数、字符数、单词数

Java 8+ 推荐用 Files.lines() 流式处理,避免手动管理 BufferedReader。它默认按系统换行符切分,返回 Stream<string></string>,适合逐行统计。

  • 行数:直接用 count(),但注意该操作会消耗流,后续不能再复用
  • 字符数:对每行调用 String.length() 累加(不含换行符);若需含换行符,得用 Files.readAllBytes()
  • 单词数:每行用 split("\s+") 切分,过滤空字符串后计数;注意 \s+ 能处理多个空格、制表符等
Path path = Paths.get("input.txt");
try (Stream<String> lines = Files.lines(path, StandardCharsets.UTF_8)) {
    long lineCount = lines.count(); // 注意:流已关闭,不能继续用
}

处理编码异常和大文件内存溢出

中文文本常见 MalformedInputException,本质是文件编码与指定编码不匹配。不要硬写 UTF_8,应先探测或允许用户传入编码参数。

  • 小文件可用 Files.readAllLines(path, charset),但超过几十 MB 易 OOM
  • 大文件必须用流式处理(Files.lines()BufferedReader),且每次只持有一行
  • 若不确定编码,可尝试 CharsetDetector(Apache Tika)或简单 fallback:先试 UTF-8,失败再试 GBK

区分“单词”的边界:别依赖 String.split(" ")

split(" ") 只按单个空格切,遇到制表符、连续空格、首尾空格就会漏词或产生空串。实际统计应满足:英文单词由字母数字组成,中文字符每个字算一个“词”(视需求而定)。

  • 纯英文场景:用 line.split("\p{IsAlphabetic}+|\p{IsDigit}+") 不现实,更实用的是正则匹配单词:Pattern.compile("\b[a-zA-Z]+\b")
  • 中英文混合:用 "[\p{IsHan}\p{IsLetter}\p{IsDigit}]+" 匹配汉字、英文字母、数字组成的单元
  • 避免 split("\s+") 后不 filter(s -> !s.isEmpty()),否则空行或纯空白行会导致单词数偏高

输出格式要兼容 Unix wc 工具习惯

用户常拿你的工具和系统 wc 对比,字段顺序、对齐、列宽都影响信任感。标准 wc 输出是:行数 单词数 字符数 文件名,且数字右对齐、固定宽度(通常 7 位)。

ArrowMancer
ArrowMancer

手机上的宇宙动作RPG,游戏角色和元素均为AI生成

下载

立即学习Java免费学习笔记(深入)”;

  • 字符数包含所有字节(不是字符数),Java 中对应 Files.readAllBytes().length;若只要 Unicode 字符数,才用 String.length()
  • 文件名为空时(如从 stdin 读),输出不带文件名;多个文件要分别统计,并在末尾加总计行
  • 别用 System.out.printf("%7d %7d %7d %s", ...) 简单对齐——Windows 控制台可能乱码,建议用 String.format 拼接后统一输出

真正难的不是算数,而是让不同编码、含控制字符、超长行、稀疏空格的文件都给出稳定结果。尤其当用户把日志、CSV、甚至二进制伪装成文本扔进来时,健壮性比功能更重要。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1030

2023.08.02

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

203

2023.11.20

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

887

2023.07.31

python中的format是什么意思
python中的format是什么意思

python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

462

2024.06.27

printf用法大全
printf用法大全

php中文网为大家提供printf用法大全,以及其他printf函数的相关文章、相关下载资源以及各种相关课程,供大家免费下载体验。

76

2023.06.20

fprintf和printf的区别
fprintf和printf的区别

fprintf和printf的区别在于输出的目标不同,printf输出到标准输出流,而fprintf输出到指定的文件流。根据需要选择合适的函数来进行输出操作。更多关于fprintf和printf的相关文章详情请看本专题下面的文章。php中文网欢迎大家前来学习。

306

2023.11.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

37

2026.03.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.4万人学习

C# 教程
C# 教程

共94课时 | 11.2万人学习

Java 教程
Java 教程

共578课时 | 81.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号