曲径通幽论坛

标题: awk 处理流程 [打印本页]

作者: beyes    时间: 2011-9-22 01:01
标题: awk 处理流程
awk 程序由主输入(main input)循环组成。一个循环是一个例程,它将一直重复执行直到一些条件将它终止。比如下面有这么一个文本文件(test.txt):
320234902390
aaaaaabbbbbb
aaaa12345567
12345bbbbbbb
22a4a6a7b8b89
/*

这里有 4 个空行

*/
另外,我们还有一个写入一组命令的文件(awktest),内容如下:
[Bash shell] 纯文本查看 复制代码

/^$/ {print "This is a blank line."}
/[A-Za-z]+/ {print "This is a string."}
/[0-9]+/ {print "This is an integer"}

运行以下命令:
#awk -f awktest test.txt
This is an integer.
This is a string.
This is a string.
This is an integer.
This is a string.
This is an integer.
This is a string.
This is an integer.
This is a blank line.
This is a blank line.
This is a blank line.
This is a blank line.
awk 处理文本的过程如下:
首先,test.txt 中的文本是一行一行的输入到 awk 中,然后 awk 会试图依次使用 awktest 文件中列出的模式规则去测试输入的内容是否与其匹配,如果匹配,就执行后面的命令(print)。如果该行不匹配,则用下一行模式去测试,直到所有的模式测试完为止。

上面脚本中的正则表达式里的 '+' 号表示匹配前面的字符的一个或多个。另外,test.txt 中的后面 3 行里既含有数字又含有字母,这种情况下,它匹配了 2 行规则。比如在扫描 “12345bbbbbbb” 这一行时,/^$/ 规则是匹配空行的,所以不适用该行;接着使用 /[A-Za-z]+/ 规则去尝试匹配,这时扫描到后面的 bbbbbbb 时匹配成功,于是打印出“This is a string” ;再往下时,/[0-9]+/ 规则又匹配了该行的 12345 这部分,于是输出 “This is an integer.” 。所以对于一行输入来说,脚本文件中的所有规则都会去尝试是否匹配它。




欢迎光临 曲径通幽论坛 (http://www.groad.net/bbs/) Powered by Discuz! X3.2