0

0

Python脚本:删除包含重复前缀的行,仅保留最长匹配行

霞舞

霞舞

发布时间:2026-01-10 17:31:02

|

946人浏览过

|

来源于php中文网

原创

Python脚本:删除包含重复前缀的行,仅保留最长匹配行

本文介绍如何用python识别并删除具有“前缀重复关系”的多行文本(如每行是下一行的前缀),只保留最长的那行,适用于日志精简、命令补全去重等场景。

在处理结构化文本(例如命令提示、分层日志或自动补全文本)时,常遇到如下模式:

This  
This line  
This line has  
This line has five  
This line has five strings  

这里每一行都是下一行的严格前缀(即 line[i] == line[i+1][:len(line[i])])。用户需求不是去重(set() 方案仅过滤完全相同的行),而是“链式前缀压缩”——仅保留每条前缀链中最长的末端行

以下是一个健壮、简洁且可读性强的解决方案:

infilename = "input.txt"  # 替换为你的输入文件路径

with open(infilename) as fin:
    # 读取所有行并去除尾部换行符与空白(避免因空格导致误判)
    lines = [line.rstrip('\n\r') for line in fin]

i = 0
while i < len(lines):
    # 向后检查:若下一行以当前行为前缀,则跳过当前行(它是“中间前缀”)
    while i + 1 < len(lines) and lines[i + 1].startswith(lines[i]):
        i += 1
    # 此时 lines[i] 是当前前缀链中最长的一行 → 输出/保存
    print(lines[i])
    i += 1

关键逻辑说明

Kacha
Kacha

KaCha是一款革命性的AI写真工具,用AI技术将照片变成杰作!

下载

立即学习Python免费学习笔记(深入)”;

  • 使用 str.startswith() 判断前缀关系,天然支持空格、标点等任意字符;
  • while 循环实现“贪心跳过”:只要下一行包含当前行作为前缀,就持续前进,最终停在链尾;
  • 不依赖排序,保持原始行序(前提是输入已按前缀层级自然排列,如示例所示);
  • rstrip('\n\r') 比 str.rstrip() 更精准,避免误删行首/行中空格。

⚠️ 注意事项

  • 若输入未按前缀长度递增排序(例如 apple, app, application 混排),该算法将失效。此时需先按字符串长度升序排序:lines.sort(key=len);
  • 空行或纯空白行会被视为有效前缀(因 "".startswith("") 为 True),建议预处理过滤:lines = [l for l in lines if l.strip()];
  • 如需写入文件而非打印,将 print(lines[i]) 替换为 outfile.write(lines[i] + '\n'),并在开头打开输出文件。

该方案时间复杂度为 O(n×m),其中 n 为行数、m 为平均行长度,兼顾效率与可维护性,适合处理数千行以内的典型文本场景。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

192

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

18

2026.02.03

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

846

2023.08.22

sort排序函数用法
sort排序函数用法

sort排序函数的用法:1、对列表进行排序,默认情况下,sort函数按升序排序,因此最终输出的结果是按从小到大的顺序排列的;2、对元组进行排序,默认情况下,sort函数按元素的大小进行排序,因此最终输出的结果是按从小到大的顺序排列的;3、对字典进行排序,由于字典是无序的,因此排序后的结果仍然是原来的字典,使用一个lambda表达式作为key参数的值,用于指定排序的依据。

409

2023.09.04

while的用法
while的用法

while的用法是“while 条件: 代码块”,条件是一个表达式,当条件为真时,执行代码块,然后再次判断条件是否为真,如果为真则继续执行代码块,直到条件为假为止。本专题为大家提供while相关的文章、下载、课程内容,供大家免费下载体验。

106

2023.09.25

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1566

2023.10.24

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号