0

0

如何在Java中统计目标单词在文本文件中出现的次数

花韻仙語

花韻仙語

发布时间:2026-01-04 13:21:36

|

611人浏览过

|

来源于php中文网

原创

如何在Java中统计目标单词在文本文件中出现的次数

本文详解如何正确读取文本文件并精确统计用户指定单词在整个文件中的完整匹配次数,修正常见逻辑错误(如仅读首行、误用contains导致子串误判),提供健壮、可运行的java实现方案。

在Java中统计一个单词在文本文件中完整、独立出现的次数(而非作为子字符串被包含),需要同时解决三个关键问题:

  1. 逐行读取整个文件(而非只读第一行);
  2. 按单词边界切分(避免将 "long" 错误匹配到 "longer" 或 "belong" 中);
  3. 区分大小写与标点干扰(如 "Long," 应视为有效匹配)。

原代码中存在两个核心缺陷:

  • szSearch = br.readLine(); 仅读取了文件第一行,后续 while (szSearch.contains(szWord)) 实际是无限循环(因 szSearch 值未更新)或直接跳过;
  • contains() 判断的是子串包含关系,会导致 "long" 匹配 "longer"、"along" 等非目标词,造成统计失真。

✅ 正确做法是:使用 BufferedReader 循环读取每一行,对每行进行空格分割 + 精确单词比对,并推荐使用正则预处理以兼容标点(如英文逗号、句号)。以下是优化后的完整实现:

import java.io.*;
import java.util.Arrays;
import java.util.regex.Pattern;

public class WordCounter {
    public static void main(String[] args) {
        Scanner szKeyboard = new Scanner(System.in);
        BufferedReader br = null;
        try {
            System.out.print("What word are you searching for? ");
            String targetWord = szKeyboard.nextLine().trim();
            if (targetWord.isEmpty()) {
                System.out.println("Error: Search word cannot be empty.");
                return;
            }
            System.out.println("Searching the file...");

            br = new BufferedReader(new FileReader("WORDLIST.txt"));
            String line;
            int count = 0;
            // 使用正则预处理:替换非字母数字字符为空格,确保单词边界清晰
            Pattern nonWord = Pattern.compile("[^a-zA-Z0-9]+");

            while ((line = br.readLine()) != null) {
                // 按空白符分割,并过滤空字符串
                String[] words = nonWord.matcher(line).replaceAll(" ").split("\\s+");
                for (String word : words) {
                    if (!word.isEmpty() && word.equalsIgnoreCase(targetWord)) {
                        count++;
                    }
                }
            }

            System.out.println("The word \"" + targetWord + "\" appears " + count + " times in the file WORDLIST.txt.");

        } catch (FileNotFoundException e) {
            System.out.println("Error - File not found: " + e.getMessage());
        } catch (IOException e) {
            System.out.println("Error - Reading file: " + e.getMessage());
        } finally {
            szKeyboard.close();
            if (br != null) {
                try {
                    br.close();
                } catch (IOException e) {
                    System.out.println("Warning - Failed to close reader: " + e.getMessage());
                }
            }
            System.out.println("\n\n--- File End ---");
        }
    }
}

? 关键改进说明:

fortran语言语法 WORD版
fortran语言语法 WORD版

本文档主要讲述的是fortran语言语法;FORTRAN是世界上最早出现的高级编程语言,是工程界最常用的编程语言,它在科学计算中(如航空航天、地质勘探、天气预报和建筑工程等领域)发挥着极其重要的作用。经过40多年的发展,伴随着FORTRAN语言多次版本的更新及相应开发系统的出现,其功能不断完善,最新版本的开发系统几乎具备了VC、VB的所有特点,如图形界面编程、数据库等。希望本文档会给有需要的朋友带来帮助;感兴趣的朋友可以过来看看

下载

立即学习Java免费学习笔记(深入)”;

  • ✅ 使用 while ((line = br.readLine()) != null) 确保逐行遍历全文
  • ✅ Pattern.compile("[^a-zA-Z0-9]+").matcher(line).replaceAll(" ") 将所有标点、特殊符号统一转为空格,避免 "long," 被当作独立单词遗漏;
  • ✅ split("\\s+") 按任意空白符(空格、制表符、换行等)安全分割;
  • word.equalsIgnoreCase(targetWord) 支持不区分大小写的精确匹配(如搜索 "Long" 可匹配 "long");
  • ✅ 显式 trim() 和 !word.isEmpty() 过滤空项,防止空字符串干扰计数。

⚠️ 注意事项:

  • 若需严格区分大小写,将 equalsIgnoreCase 替换为 equals;
  • 若文件编码非默认平台编码(如含中文或UTF-8 BOM),建议显式指定:new InputStreamReader(new FileInputStream("WORDLIST.txt"), "UTF-8");
  • 对于超大文件,可考虑使用 Files.lines(Paths.get("WORDLIST.txt")) 配合 Stream API 提升可读性(Java 8+)。

此方案兼顾准确性、鲁棒性与可维护性,可直接集成到实际项目中。

相关专题

更多
java
java

Java是一个通用术语,用于表示Java软件及其组件,包括“Java运行时环境 (JRE)”、“Java虚拟机 (JVM)”以及“插件”。php中文网还为大家带了Java相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

833

2023.06.15

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

738

2023.07.05

java自学难吗
java自学难吗

Java自学并不难。Java语言相对于其他一些编程语言而言,有着较为简洁和易读的语法,本专题为大家提供java自学难吗相关的文章,大家可以免费体验。

734

2023.07.31

java配置jdk环境变量
java配置jdk环境变量

Java是一种广泛使用的高级编程语言,用于开发各种类型的应用程序。为了能够在计算机上正确运行和编译Java代码,需要正确配置Java Development Kit(JDK)环境变量。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

397

2023.08.01

java保留两位小数
java保留两位小数

Java是一种广泛应用于编程领域的高级编程语言。在Java中,保留两位小数是指在进行数值计算或输出时,限制小数部分只有两位有效数字,并将多余的位数进行四舍五入或截取。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

398

2023.08.02

java基本数据类型
java基本数据类型

java基本数据类型有:1、byte;2、short;3、int;4、long;5、float;6、double;7、char;8、boolean。本专题为大家提供java基本数据类型的相关的文章、下载、课程内容,供大家免费下载体验。

446

2023.08.02

java有什么用
java有什么用

java可以开发应用程序、移动应用、Web应用、企业级应用、嵌入式系统等方面。本专题为大家提供java有什么用的相关的文章、下载、课程内容,供大家免费下载体验。

430

2023.08.02

java在线网站
java在线网站

Java在线网站是指提供Java编程学习、实践和交流平台的网络服务。近年来,随着Java语言在软件开发领域的广泛应用,越来越多的人对Java编程感兴趣,并希望能够通过在线网站来学习和提高自己的Java编程技能。php中文网给大家带来了相关的视频、教程以及文章,欢迎大家前来学习阅读和下载。

16926

2023.08.03

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

5

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 2.6万人学习

C# 教程
C# 教程

共94课时 | 6.8万人学习

Java 教程
Java 教程

共578课时 | 46.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号