0

0

如何在Linux中截取字符串 Linux cut字段分割技巧

P粉602998670

P粉602998670

发布时间:2025-09-13 09:04:01

|

266人浏览过

|

来源于php中文网

原创

cut命令在Linux中用于按字符或字段截取字符串,-c按字符位置、-f按分隔符字段,-d指定单字符分隔符,但不支持多字符分隔符;复杂场景需用awk、sed、grep -o或bash内置操作。

如何在linux中截取字符串 linux cut字段分割技巧

在Linux中,要截取字符串,尤其是基于特定的分隔符进行字段分割,最常用且高效的工具就是

cut
命令。它能帮助我们从文本行中提取出指定列或字符范围,操作直观且性能优异。

解决方案

OK,咱们直接聊聊

cut
这个小工具,它在处理文本数据时简直是利器。我个人觉得,很多时候我们想从日志文件、配置文件或者某个命令的输出中抓取点信息,
cut
就能派上大用场。它的核心思路就是“切”,要么按字符位置切,要么按字段分隔符切。

最常见的用法,当然是按字段分割。比如说,你有一个文件,里面每行都是用冒号

:
分隔的,你想取第三个字段。
cut -d ':' -f 3 filename.txt
这里
-d
就是定义分隔符(delimiter),告诉
cut
用什么字符来“切”。而
-f
则是指定要取哪个字段(field)。这个
-f
后面可以跟单个数字,也可以是范围(如
1-3
表示取第1到第3个字段),或者是不连续的多个字段(如
1,5
表示取第1和第5个字段)。

有时候,文件里可能用的是空格或者制表符做分隔,但它们看起来不那么“规矩”,比如多个空格连在一起。这时候,

cut
默认会把连续的空格或制表符当作一个分隔符,但如果你的数据是严格的一个空格一个字段,那就要小心了。不过,对于很多结构化的文本,比如
/etc/passwd
文件,用冒号做分隔符就非常清晰。

除了按字段,

cut
也能按字符位置来截取。这对于那些没有明确分隔符,但格式固定的数据特别有用。
cut -c 1-5 filename.txt
这个
-c
就是按字符(character)来切。它会从每行的第1个字符开始,一直取到第5个字符。同样,你可以用
1,3,5
来取不连续的字符位置,或者
5-
来表示从第5个字符到行尾。

我发现一个挺有意思的点是,很多人在刚接触

cut
的时候,会混淆
-f
-c
的使用场景。记住,
-f
针对的是“字段”,需要有分隔符;而
-c
针对的是“字符位置”,与分隔符无关。理解这个,基本上
cut
的核心用法就掌握了。

Linux中
cut
命令如何处理复杂或多样的分隔符?

这个问题问得好,因为现实世界的数据可不像教程里那么“干净”。我们经常会遇到用空格、制表符甚至多个字符组合做分隔符的情况。

cut
命令在处理这些“不那么标准”的分隔符时,确实有一些需要注意的地方。

首先,

cut
默认的分隔符是制表符。如果你不指定
-d
,它就按制表符来切。当分隔符是单个字符时,比如逗号
,
、冒号
:
或者管道符
|
,直接用
-d ','
-d '|'
就可以了。但是,如果分隔符是空格,比如
cut -d ' ' -f 2 filename.txt
,这会把每个空格都当作一个分隔符。这意味着,如果你的数据是
a  b   c
(a后面两个空格,b后面三个空格),那么
cut -d ' ' -f 2
取到的可能就不是你想要的
b
,而是一个空字符串,因为第一个空格和第二个空格之间被视为一个字段,但它是空的。

对于这种情况,我通常会倾向于结合

tr
awk
来预处理。比如,如果你想把多个空格缩减成一个空格,然后用
cut
cat filename.txt | tr -s ' ' | cut -d ' ' -f 2
tr -s ' '
会把连续的空格压缩成一个。这样
cut
就能更准确地按单个空格分割了。

另一个常见场景是,分隔符本身是特殊字符,比如

.
*
。在命令行里,这些字符有特殊含义,所以需要转义。但
cut
-d
参数是字面量,它直接接受一个字符作为分隔符,不需要考虑正则表达式的转义。所以
cut -d '.'
来用点号作为分隔符是完全没问题的。

Pebblely
Pebblely

AI产品图精美背景添加

下载

不过,如果你的分隔符是多个字符组成的字符串,比如

_SPLIT_
,那么
cut
就无能为力了。
cut
只能处理单个字符作为分隔符。这时候,
awk
就是更好的选择。
awk -F '_SPLIT_' '{print $2}' filename.txt
awk
-f
参数可以指定一个字符串作为分隔符,这比
cut
灵活得多。

所以,总结一下:

cut
对单字符分隔符很在行,但遇到多空格、多字符分隔符时,考虑
tr
预处理或直接上
awk
。这是一种经验之谈,选择合适的工具能事半功倍。

除了
cut
,Linux还有哪些高效的字符串截取工具及其适用场景?

确实,

cut
固然好用,但它并非万能。在Linux的命令行世界里,字符串处理的工具箱可丰富着呢。除了
cut
,我个人最常用且觉得效率高的,还有
awk
sed
grep
的组合,甚至
bash
自身的字符串操作功能也挺强大。

  1. awk
    :文本处理的瑞士军刀 如果说
    cut
    是小刀,那
    awk
    就是一把多功能军刀。它在处理复杂字段、多字符分隔符、条件判断以及格式化输出方面,简直是无敌的存在。

    • 场景1:多字符分隔符。 前面提到了,
      awk -F 'STRING_DELIMITER' '{print $N}'
      可以轻松搞定。
    • 场景2:基于内容或条件的截取。 比如,你只想处理包含特定模式的行,或者根据某个字段的值来决定截取哪个字段。
      awk '$3 > 10 {print $1, $5}' filename.txt
      (打印第三个字段大于10的行的第一和第五个字段)
    • 场景3:复杂的输出格式。
      awk
      可以让你重新组织输出,甚至进行计算。
      awk -F ':' '{print "User: " $1 ", UID: " $3}' /etc/passwd
      awk
      的强大在于它的编程能力,能处理的逻辑远超
      cut
  2. sed
    :流编辑器,文本替换与截取
    sed
    主要用于对文本进行流式编辑,最常见的是替换。但它也能用来截取字符串,通常是通过正则表达式匹配然后提取。

    • 场景1:基于正则表达式的复杂模式匹配截取。 比如,你想从日志中提取括号里的内容。
      echo "Log entry (important_data_123) details" | sed -n 's/.*(\(.*\)).*/\1/p'
      这里
      s
      是替换命令,
      .*(\(.*\)).*
      是正则表达式,
      \1
      引用了第一个捕获组。
      sed -n
      配合
      p
      标志只打印匹配的行。这比
      cut
      灵活得多,因为
      cut
      不支持正则表达式。
    • 场景2:删除特定部分以达到截取目的。 比如,删除行首或行尾的固定字符。
      echo "  hello world  " | sed 's/^ *//; s/ *$//'
      (删除行首行尾空格)
      sed
      的学习曲线可能比
      cut
      陡峭一些,但一旦掌握,处理各种文本模式会非常高效。
  3. grep
    :过滤文本,结合
    -o
    进行截取
    grep
    通常是用来搜索文本的,但结合
    -o
    (only matching) 选项,它也能实现截取功能,只输出匹配到的内容本身。

    • 场景:提取符合特定模式的所有独立匹配。
      echo "IP: 192.168.1.10, Gateway: 192.168.1.1" | grep -oE '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}'
      这会分别输出
      192.168.1.10
      192.168.1.1
      grep -o
      是我个人在快速提取特定格式数据时非常喜欢用的一个技巧。
      -E
      开启扩展正则表达式,让模式书写更方便。
  4. bash
    自身的字符串操作 对于脚本编程,
    bash
    提供了丰富的内置字符串操作,避免了频繁调用外部命令的开销。

    • 场景1:截取固定长度子串。
      VAR="abcdefg"
      echo "${VAR:0:3}"
      输出
      abc
      (从索引0开始,取3个字符)
    • 场景2:从左/右删除匹配模式。
      FILE="document.tar.gz"
      echo "${FILE%.*}"
      输出
      document.tar
      (从右边删除最短的
      .
      )
      echo "${FILE%%.*}"
      输出
      document
      (从右边删除最长的
      .*
      )
      echo "${FILE#*.}"
      输出
      tar.gz
      (从左边删除最短的
      *.
      )
      echo "${FILE##*.}"
      输出
      gz
      (从左边删除最长的
      *.
      ) 这些在编写shell脚本时非常实用,效率也高。

所以,在选择工具时,我会先评估任务的复杂度。如果只是简单的按字段或按字符位置,

cut
是首选;如果涉及多字符分隔符、条件判断或复杂格式化,
awk
出场;需要正则表达式匹配提取,
sed
grep -o
更合适;而在脚本内部,
bash

相关专题

更多
504 gateway timeout怎么解决
504 gateway timeout怎么解决

504 gateway timeout的解决办法:1、检查服务器负载;2、优化查询和代码;3、增加超时限制;4、检查代理服务器;5、检查网络连接;6、使用负载均衡;7、监控和日志;8、故障排除;9、增加缓存;10、分析请求。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

568

2023.11.27

default gateway怎么配置
default gateway怎么配置

配置default gateway的步骤:1、了解网络环境;2、获取路由器IP地址;3、登录路由器管理界面;4、找到并配置WAN口设置;5、配置默认网关;6、保存设置并退出;7、检查网络连接是否正常。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

220

2023.12.07

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

510

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

249

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

742

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

213

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

1

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.5万人学习

Git 教程
Git 教程

共21课时 | 2.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号