Linux 文本处理三剑客之 Awk

悦耳笑毛巾 2022-09-27 09:50:34  66335

分类专栏：资讯

AWK是一种优良的文本处理工具。它不仅是 Linux 中也是任何环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言（其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母）的最大功能取决于一个人所拥有的知识。AWK 提供了极其强大的功能：可以进行样式装入、流控制、数学运算符、进程控制语句甚至于内置的变量和函数。它具备了一个完整的语言所应具有的几乎所有精美特性。实际上 AWK 的确拥有自己的语言：AWK 程序设计语言，三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。

最简单地说， AWK 是一种用于处理文本的编程语言工具。AWK 在很多方面类似于 shell 编程语言，尽管 AWK 具有完全属于其本身的语法。它的设计思想来源于 SNOBOL4 、sed 、Marc Rochkind设计的有效性语言、语言工具 yacc 和 lex ，当然还从 C 语言中获取了一些优秀的思想。在最初创造 AWK 时，其目的是用于文本处理，并且这种语言的基础是，只要在输入数据中有模式匹配，就执行一系列指令。该实用工具扫描文件中的每一行，查找与命令行中所给定内容相匹配的模式。如果发现匹配内容，则进行下一个编程步骤。如果找不到匹配内容，则继续处理下一行。

Awk 的语法：

awk '{pattern + action}' 或者 awk 'pattern {action}'

awk [ -F re] [parameter...] ['prog'] [-f progfile]

参数说明：

-F re：允许awk更改其字段分隔符。

parameter: 该参数帮助为不同的变量赋值。

'prog': awk的程序语句段。这个语句段必须用单括号：'和'括起，以防被shell解释。这个程序语句段的标准形式为：'pattern {action}'

其中 pattern 参数可以是 egrep 正则表达式中的任何一个，它可以使用语法 /re/ 再加上一些样式匹配技巧构成。与 sed 类似，你也可以使用"," 分开两样式以选择某个范围。action参数总是被大括号包围，它由一系列awk语句组成，各语句之间用";"分隔。awk解释它们，并在pattern给定的样式匹配的记录上执行其操作。与shell类似，你也可以使用“”作为注释符，它使“”到行尾的内容成为注释，在解释执行时，它们将被忽略。你可以省略pattern和 action之一，但不能两者同时省略，当省略pattern时没有样式匹配，表示对所有行（记录）均执行操作，省略action时执行缺省的操作——在标准输出上显示。

-f progfile：允许awk调用并执行progfile指定有程序文件。progfile是一个文本文件，他必须符合awk的语法。

in_file:awk的输入文件，awk允许对多个输入文件进行处理。值得注意的是awk不修改输入文件。如果未指定输入文件，awk将接受标准输入，并将结果显示在标准输出上。awk支持输入输出重定向。

awk处理的工作与数据库的处理方式有相同之处，其相同处之一就是awk支持对记录和字段的处理，其中对字段的处理是grep和sed不能实现的，这也是awk优于二者的原因之一。在awk中，缺省的情况下总是将文本文件中的一行视为一个记录，而将一行中的某一部分作为记录中的一个字段。为了操作这些不同的字段，awk借用shell的方法，用1,2,3...这样的方式来顺序地表示行（记录）中的不同字段。特殊地，awk用0表示整个行（记录）。不同的字段之间是用称作分隔符的字符分隔开的。系统默认的分隔符是空格。awk允许在命令行中用-F re的形式来改变这个分隔符。事实上，awk用一个内置的变量RS来记忆这个分隔符。awk中有好几个这样的内置变量，例如，记录分隔符变量RS、当前工作的记录数NR等等，这些内置的变量可以在awk程序中引用或修改，例如，你可以利用NR变量在模式匹配中指定工作范围，也可以通过修改记录分隔符RS让一个特殊字符而不是换行符作为记录的分隔符。

Awk的内置变量：

ARGC命令行参数个数（不包括awk的选项和awk的程序内容）

ARGIND 当前正在处理的ARGV中的文件的索引值（同时处理多个文件时会用到）

ARGV 命令行参数序列数组，下标从0开始

CONVFMT 数字转换格式，和C语言中的数字输出格式化类似，默认为"%.6g"

ENVIRON 当前系统的环境变量

ERRNO 出错时的错误信息

FIELDWIDTHS 以空格分隔的字段宽度，awk会用指定的宽度替换变量FS指定的分隔符

FILENAME 当前正在处理的文件名，该变量不能在BEGIN块中使用

FNR当前处理的记录号

FS 字段的分隔符，默认为空格

IGNORECASE 如果该变量设置为非0值，在进行字符串匹配时忽略大小写

NF 当前记录中的字段个数

NR 已经读出的记录数

OFMT 数字的输出格式

OFS 输出的字段分隔符，默认为空格

ORS 输出的记录分隔符，默认为新行

RS 输入记录的分隔符，默认为新行

RSTART 被match（）函数匹配的字符串的起始位置，如果没有匹配则为0（从1开始）

RLENGTH 被match（）函数匹配的字符串的长度

SUBSEP数组中多个下标的分隔符，默认为"\034"

内置函数

Awk 之所以成为一种优秀的程序设计语言的原因之一是它吸收了某些优秀的程序设计语言（例如C）语言的许多优点。这些优点之一就是内置函数的使用，awk定义并支持了一系列的内置函数，由于这些函数的使用，使得awk提供的功能更为完善和强大，例如，awk使用了一系列的字符串处理内置函数(这些函数看起来与C 语言的字符串处理函数相似，其使用方式与C语言中的函数也相差无几)，正是由于这些内置函数的使用，使awk处理字符串的功能更加强大。本文后面的附录中列有一般的awk所提供的内置函数，这些内置函数也许与你的awk版本有些出入，因此，在使用之前，最好参考一下你的系统中的联机帮助。

Awk内置的字符串函数

gsub(r,s)	在整个$0中用s代替r
gsub(r,s,t)	在整个t中用s替代r
index(s,t)	返回s中字符串t的第一位置
length(s)	返回s长度
match(s,r)	测试s是否包含匹配r的字符串
split(s,a,fs)	在fs上将s分成序列a
sprint(fmt,exp)	返回经fmt格式化后的exp
sub(r,s)	用$0中最左边最长的子串代替s
substr(s,p)	返回字符串s中从p开始的后缀部分
substr(s,p,n)	返回字符串s中从p开始长度为n的后缀部分

gsub函数有点类似于sed查找和替换。它允许替换一个字符串或字符为另一个字符串或字符，并以正则表达式的形式执行。第一个函数作用于记录$0，第二个gsub函数允许指定目标，然而，如果未指定目标，缺省为$0。

index(s，t）函数返回目标字符串s中查询字符串t的首位置。length函数返回字符串s字符长度。

match函数测试字符串s是否包含一个正则表达式r定义的匹配。

split使用域分隔符fs将字符串s划分为指定序列a。

sprint函数类似于printf函数，返回基本输出格式fmt的结果字符串exp。

sub(r，s）函数将用s替代$0中最左边最长的子串，该子串被r匹配。

substr(s，p）返回字符串s在位置p后的后缀。

substr(s，p，n）同上，并指定子串长度为n。

显示文本文件 /etc/passwd 匹配（含有）字符串"root"的所有行
awk '/root/' /etc/passwd
由于显示整个记录（全行）是awk的缺省动作，因此可以省略action项
awk '/[Rr]oot/,/[Gg]f/ ' /etc/passwd
显示所有匹配 Root 或 root 的行与匹配 Gf 或 gf 的行之间的行，并显示到标准输出上

显示 /etc/passwd 有root 关键字的所有行，并显示对应的名称和 shell
awk -F: '/root/ {print $1,$7}' /etc/passwd
awk -F: '/^root/ {print $1,$7}' /etc/passwd 锚定行首
统计 /etc/passwd 文件名，每行的行号，每行的列数，对应的完整行内容
awk -F: '{printf ("filename:%10s, linenumber:%3s, column:%3s, content:%3s \n", FILENAME,NR,NF,$0)}' /etc/passwd
显示 /etc/passwd 的第二行信息
awk -F: 'NR==2{print "filename: "FILENAME, $0}' /etc/passwd

awk的过滤使用方法
ll -aF | awk '/^-/'
ll -aF | awk '/^d/'

指定特定的分隔符
pwd | awk -F "/" '{print $1,$2,$3}'

指定特定的分隔符，查询倒数第二列
pwd | awk -F/ '{print $0,$(NF-1)}'

获取第10到20行的第一列的信息
awk -F: '{if(NR<20 && NR>10) print $1}' /etc/passwd
awk '{if(NR>=10 && NR<=15) print $1}' /etc/passwd

多分隔符的使用
awk -F "[-/]" 'NR == 1 {print NR,$0,"\n",$1,"\n",$2,"\n",$3}' /tmp/test.txt

BEGIN 和 END
cat /etc/passwd | awk -F: 'BEGIN{print "name, shell"} {print $1,$NF} END{print "hello world"}'

查看最近登录最多的IP信息
last | awk '{S[$3]++} END{for(a in S ) {print S[a],a}}' |uniq| sort -rh
last | awk '{a[$3] += 1;} END {for (i in a) printf("%d %s\n", a[i], i);}' | sort -rh
awk每次读取一行，$3就是IP，{S[$3]++} 是将IP作为一个数组，统计IP所对应的数组元素自增1.END后面的语句是打印结果，只执行一次。sort -r 逆向排序 -h, --human-numeric-sort 使用易读性数字

结合正则过滤多个空格
ifconfig | grep "[eth*|lo]" | awk -F '[ ]+' '{print $1}'

awk编程--变量和赋值
统计显示/etc/passwd的账户
awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd
count是自定义变量。之前的action{}里都是只有一个print,其实print只是一个语句，而action{}可以有多个语句，以;号隔开

取最大值和最小值
ll | awk 'BEGIN {max = 0} {if ($5>max) max=$5 } END {print "Max=", max}'
awk 'BEGIN {min = 65536} {if ($2+0 < min+0) min=$2 fi} END {print "Min=", min}'

获取本机 IP 地址
ifconfig eth0 | awk 'BEGIN{FS="[[:space:]:]+"} NR==2{print $4}'
内建变量FS保存输入域分隔符的值，默认是空格或tab，NR 已经读出的记录数，NR==2也就是取第2行

网站声明：如果转载，请联系本站管理员。否则一切后果自行承担。

本文链接：https://www.xckfsq.com/news/show.html?id=10576

赞同 0

评论 0 条

Linux 文本处理三剑客之 Awk

相关文章

关注我们