awk 程序由主输入(main input)循环组成。一个循环是一个例程,它将一直重复执行直到一些条件将它终止。比如下面有这么一个文本文件(test.txt):320234902390
aaaaaabbbbbb
aaaa12345567
12345bbbbbbb
22a4a6a7b8b89
/*
这里有 4 个空行
*/ 另外,我们还有一个写入一组命令的文件(awktest),内容如下:
[Bash shell] 纯文本查看 复制代码
/^$/ {print "This is a blank line."}
/[A-Za-z]+/ {print "This is a string."}
/[0-9]+/ {print "This is an integer"}
运行以下命令:#awk -f awktest test.txt
This is an integer.
This is a string.
This is a string.
This is an integer.
This is a string.
This is an integer.
This is a string.
This is an integer.
This is a blank line.
This is a blank line.
This is a blank line.
This is a blank line. awk 处理文本的过程如下:
首先,test.txt 中的文本是一行一行的输入到 awk 中,然后 awk 会试图依次使用 awktest 文件中列出的模式规则去测试输入的内容是否与其匹配,如果匹配,就执行后面的命令(print)。如果该行不匹配,则用下一行模式去测试,直到所有的模式测试完为止。
上面脚本中的正则表达式里的 '+' 号表示匹配前面的字符的一个或多个。另外,test.txt 中的后面 3 行里既含有数字又含有字母,这种情况下,它匹配了 2 行规则。比如在扫描 “12345bbbbbbb” 这一行时,/^$/ 规则是匹配空行的,所以不适用该行;接着使用 /[A-Za-z]+/ 规则去尝试匹配,这时扫描到后面的 bbbbbbb 时匹配成功,于是打印出“This is a string” ;再往下时,/[0-9]+/ 规则又匹配了该行的 12345 这部分,于是输出 “This is an integer.” 。所以对于一行输入来说,脚本文件中的所有规则都会去尝试是否匹配它。 |