没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
29页
你可能对UNIX 比较熟悉,但你可能对 awk 很陌生,这一点也不奇怪,的确,与其优秀 的功能相比,awk 还远没达到它应有的知名度。awk 是什么?与其它大多数UNIX 命令 不同的是,从名字上看,我们不可能知道awk 的功能:它既不是具有独立意义的英文单 词,也不是几个相关单词的缩写。事实上,awk 是三个人名的缩写,他们是:Aho 、 (Peter)Weinberg 和(Brain)Kernighan。正是这三个人创造了 awk--- 一个优秀的样式扫描与 处理工具。
资源推荐
资源详情
资源评论
Unix awk 使用手册
作者:莫名 发表时间:2002/01/27 01:39pm
什么是 awk?
你可能对 UNIX 比较熟悉,但你可能对 awk 很陌生,这一点也不奇怪,的确,与其优秀
的功能相比,awk 还远没达到它应有的知名度。awk 是什么?与其它大多数 UNIX 命令
不同的是,从名字上看,我们不可能知道 awk 的功能:它既不是具有独立意义的英文单
词,也不是几个相关单词的缩写。事实上,awk 是三个人名的缩写,他们是:Aho、
(Peter)Weinberg 和(Brain)Kernighan。正是这三个人创造了 awk---一个优秀的样式扫描与
处理工具。
AWK 的功能是什么?与 sed 和 grep 很相似,awk 是一种样式扫描与处理工具。但其功
能却大大强于 sed 和 grep。awk 提供了极其强大的功能:它几乎可以完成 grep 和 sed 所
能完成的全部工作,同时,它还可以进行样式装入、流控制、数学运算符、进程控制语
句甚至于内置的变量和函数。它具备了一个完整的语言所应具有的几乎所有精美特性。
实际上,awk 的确拥有自己的语言:awk 程序设计语言,awk 的三位创建者已将它正式
定义为:样式扫描和处理语言。
为什么使用 awk?
即使如此,你也许仍然会问,我为什么要使用 awk?
使用 awk 的第一个理由是基于文本的样式扫描和处理是我们经常做的工作,awk 所做的
工作有些象数据库,但与数据库不同的是,它处理的是文本文件,这些文件没有专门的
存储格式,普通的人们就能编辑、阅读、理解和处理它们。而数据库文件往往具有特殊
的存储格式,这使得它们必须用数据库处理程序来处理它们。既然这种类似于数据库的
处理工作我们经常会遇到,我们就应当找到处理它们的简便易行的方法,UNIX 有很多
这方面的工具,例如 sed 、grep、sort 以及 find 等等,awk 是其中十分优秀的一种。
使用 awk 的第二个理由是 awk 是一个简单的工具,当然这是相对于其强大的功能来说
的。的确,UNIX 有许多优秀的工具,例如 UNIX 天然的开发工具 C 语言及其延续 C++
就非常的优秀。但相对于它们来说,awk 完成同样的功能要方便和简捷得多。这首先是
因为 awk 提供了适应多种需要的解决方案:从解决简单问题的 awk 命令行到复杂而精
巧的 awk 程序设计语言,这样做的好处是,你可以不必用复杂的方法去解决本来很简单
的问题。例如,你可以用一个命令行解决简单的问题,而 C 不行,即使一个再简单的程
序,C 语言也必须经过编写、编译的全过程。其次,awk 本身是解释执行的,这就使得
awk 程序不必经过编译的过程,同时,这也使得它与 shell script 程序能够很好的契合。
最后,awk 本身较 C 语言简单,虽然 awk 吸收了 C 语言很多优秀的成分,熟悉 C 语言
会对学习 awk 有很大的帮助,但 awk 本身不须要会使用 C 语言——一种功能强大但需
要大量时间学习才能掌握其技巧的开发工具。
使用 awk 的第三个理由是 awk 是一个容易获得的工具。与 C 和 C++语言不同,awk 只
有一个文件(/bin/awk),而且几乎每个版本的 UNIX 都提供各自版本的 awk,你完全不必
费心去想如何获得 awk。但 C 语言却不是这样,虽然 C 语言是 UNIX 天然的开发工具,
但这个开发工具却是单独发行的,换言之,你必须为你的 UNIX 版本的 C 语言开发工具
单独付费(当然使用 D 版者除外),获得并安装它,然后你才可以使用它。
基于以上理由,再加上 awk 强大的功能,我们有理由说,如果你要处理与文本样式扫描
相关的工
作,awk 应该是你的第一选择。在这里有一个可遵循的一般原则:如果你用普通的 shell
工具或 shell script 有困难的话,试试 awk,如果 awk 仍不能解决问题,则便用 C 语言,
如果 C 语言仍然失败,则移至 C++。
awk 的调用方式
前面曾经说过,awk 提供了适应多种需要的不同解决方案,它们是:
一、awk 命令行,你可以象使用普通 UNIX 命令一样使用 awk,在命令行中你也可以使
用 awk 程序设计语言,虽然 awk 支持多行的录入,但是录入长长的命令行并保证其正
确无误却是一件令人头疼的事,因此,这种方法一般只用于解决简单的问题。当然,你
也可以在 shell script 程序中引用 awk 命令行甚至 awk 程序脚本。
二、使用-f 选项调用 awk 程序。awk 允许将一段 awk 程序写入一个文本文件,然后在
awk 命令行中用-f 选项调用并执行这段程序。具体的方法我们将在后面的 awk 语法中讲
到。
三、利用命令解释器调用 awk 程序:利用 UNIX 支持的命令解释器功能,我们可以将一
段 awk 程序写入文本文件,然后在它的第一行加上:
#!/bin/awk -f
并赋予这个文本文件以执行的权限。这样做之后,你就可以在命令行中用类似于下面这
样的方式调用并执行这段 awk 程序了。
$awk 脚本文本名 待处理文件
awk 的语法:
与其它 UNIX 命令一样,awk 拥有自己的语法:
awk [ -F re] [parameter...] ['prog'] [-f progfile][in_file...]
参数说明:
-F re:允许 awk 更改其字段分隔符。
parameter: 该参数帮助为不同的变量赋值。
'prog': awk 的程序语句段。这个语句段必须用单拓号:'和'括起,以防被 shell 解释。这
个程序语句段的标准形式为:
'pattern {action}'
其中 pattern 参数可以是 egrep 正则表达式中的任何一个,它可以使用语法/re/再加上一
些样式匹配技巧构成。与 sed 类似,你也可以使用","分开两样式以选择某个范围。关于
匹配的细节,你可以参考附录,如果仍不懂的话,找本 UNIX 书学学 grep 和 sed(本人
是在学习 ed 时掌握匹配技术的)。action 参数总是被大括号包围,它由一系列 awk 语句
组成,各语句之间用";"分隔。awk 解释它们,并在 pattern 给定的样式匹配的记录上执行
其操作。与 shell 类似,你也可以使用“#”作为注释符,它使“#”到行尾的内容成为
注释,在解释执行时,它们将被忽略。你可以省略 pattern 和 action 之一,但不能两者同
时省略,当省略 pattern 时没有样式匹配,表示对所有行(记录)均执行操作,省略 action
时执行缺省的操作——在标准输出上显示。
-f progfile:允许 awk 调用并执行 progfile 指定有程序文件。progfile 是一个文本文件,他
必须符合 awk 的语法。
in_file:awk 的输入文件,awk 允许对多个输入文件进行处理。值得注意的是 awk 不修改
输入文件。如果未指定输入文件,awk 将接受标准输入,并将结果显示在标准输出上。
awk 支持输入输出重定向。
awk 的记录、字段与内置变量:
前面说过,awk 处理的工作与数据库的处理方式有相同之处,其相同处之一就是 awk 支
持对记录和字段的处理,其中对字段的处理是 grep 和 sed 不能实现的,这也是 awk 优于
二者的原因之一。在 awk 中,缺省的情况下总是将文本文件中的一行视为一个记录,而
将一行中的某一部分作为记录中的一个字段。为了操作这些不同的字段,awk 借用 shell
的方法,用$1,$2,$3...这样的方式来顺序地表示行(记录)中的不同字段。特殊地,awk
用$0 表示整个行(记录)。不同的字段之间是用称作分隔符的字符分隔开的。系统默认
的分隔符是空格。awk 允许在命令行中用-F re 的形式来改变这个分隔符。事实上,awk
用一个内置的变量 FS 来记忆这个分隔符。awk 中有好几个这样的内置变量,例如,记
录分隔符变量 RS、当前工作的记录数 NR 等等,本文后面的附表列出了全部的内置变
量。这些内置的变量可以在 awk 程序中引用或修改,例如,你可以利用 NR 变量在模式
匹配中指定工作范围,也可以通过修改记录分隔符 RS 让一个特殊字符而不是换行符作
为记录的分隔符。
例:显示文本文件 myfile 中第七行到第十五行中以字符%分隔的第一字段,第三字段和第
七字段:
awk -F % 'NR==7,NR==15 {printf $1 $3 $7}'
awk 的内置函数
awk之所以成为一种优秀的程序设计语言的原因之一是它吸收了某些优秀的程序设计语
言(例如 C)语言的许多优点。这些优点之一就是内置函数的使用,awk 定义并支持了
一系列的内置函数,由于这些函数的使用,使得 awk 提供的功能更为完善和强大,例如,
awk 使用了一系列的字符串处理内置函数(这些函数看起来与 C 语言的字符串处理函数
相似,其使用方式与 C 语言中的函数也相差无几),正是由于这些内置函数的使用,使
awk处理字符串的功能更加强大。本文后面的附录中列有一般的awk所提供的内置函数,
这些内置函数也许与你的 awk 版本有些出入,因此,在使用之前,最好参考一下你的系
统中的联机帮助。
作为内置函数的一个例子,我们将在这里介绍 awk 的 printf 函数,这个函数使得 awk 与
c 语言的输出相一致。实际上,awk 中有许多引用形式都是从 C 语言借用过来的。如果
你熟悉 C 语言,你也许会记得其中的 printf 函数,它提供的强大格式输出功能曾经带我
们许多的方便。幸运的是,我们在 awk 中又和它重逢了。awk 中 printf 几乎与 C 语言中
一模一样,如果你熟悉 C 语言的话,你完全可以照 C 语言的模式使用 awk 中的 printf。
因此在这里,我们只给出一个例子,如果你不熟悉的话,请随便找一本 C 语言的入门书
翻翻。
例:显示文件 myfile 中的行号和第 3 字段:
$awk '{printf"%03d%s\n",NR,$1}' myfile
在命令行使用 awk
按照顺序,我们应当讲解 awk 程序设计的内容了,但在讲解之前,我们将用一些例子来
对前面的知识进行回顾,这些例子都是在命令行中使用的,由此我们可以知道在命令行
中使用 awk 是多么的方便。这样做的原因一方面是为下面的内容作铺垫,另一方面是介
绍一些解决简单问题的方法,我们完全没有必要用复杂的方法来解决简单的问题----既
然 awk 提供了较为简单的方法的话。
例:显示文本文件 mydoc 匹配(含有)字符串"sun"的所有行。
$awk '/sun/{print}' mydoc
由于显示整个记录(全行)是 awk 的缺省动作,因此可以省略 action 项。
$awk '/sun/' mydoc
例:下面是一个较为复杂的匹配的示例:
$awk '/[Ss]un/,/[Mm]oon/ {print}' myfile
它将显示第一个匹配 Sun 或 sun 的行与第一个匹配 Moon 或 moon 的行之间的行,并显
示到标准输出上。
例:下面的示例显示了内置变量和内置函数 length()的使用:
$awk 'length($0)>80 {print NR}' myfile
该命令行将显示文本 myfile 中所有超过 80 个字符的行号,在这里,用$0 表示整个记录
(行),同时,内置变量 NR 不使用标志符'$'。
例:作为一个较为实际的例子,我们假设要对 UNIX 中的用户进行安全性检查,方法是
考察/etc 下的 passwd 文件,检查其中的 passwd 字段(第二字段)是否为"*",如不为"*",
则表示该用户没有设置密码,显示出这些用户名(第一字段)。我们可以用如下语句实
现:
#awk -F: '$2=="" {printf("%s no password!\n",$1)' /etc/passwd
在这个示例中,passwd 文件的字段分隔符是“:”,因此,必须用-F:来更改默认的字段
分隔符,这个示例中也涉及到了内置函数 printf 的使用。
awk 的变量
如同其它程序设计语言一样,awk 允许在程序语言中设置变量,事实上,提供变量的功
能是程序设计语言的其本要求,不提供变量的程序设计语言本人还从未见过。
awk 提供两种变量,一种是 awk 内置的变量,这前面我们已经讲过,需要着重指出的是,
与后面提到的其它变量不同的是,在 awk 程序中引用内置变量不需要使用标志符"$"(回
忆一下前面讲过的 NR 的使用)。awk 提供的另一种变量是自定义变量。awk 允许用户在
awk 程序语句中定义并调用自已的变量。当然这种变量不能与内置变量及其它 awk 保留
字相同,在 awk 中引用自定义变量必须在它前面加上标志符"$"。与 C 语言不同的是,
awk 中不需要对变量进行初始化,awk 根据其在 awk 中第一次出现的形式和上下文确定
其具体的数据类型。当变量类型不确定时,awk 默认其为字符串类型。这里有一个技巧:
如果你要让你的 awk 程序知道你所使用的变量的明确类型,你应当在在程序中给它赋初
值。在后面的实例中,我们将用到这一技巧。
运算与判断:
作为一种程序设计语言所应具有的特点之一,awk 支持多种运算,这些运算与 C 语言提
供的基本相同:如+、-、*、/、%等等,同时,awk 也支持 C 语言中类似++、--、+=、
-=、=+、=-之类的功能,这给熟悉 C 语言的使用者编写 awk 程序带来了极大的方便。作
为对运算功能的一种扩展,awk 还提供了一系列内置的运算函数(如 log、sqr、cos、sin
等等)和一些用于对字符串进行操作(运算)的函数(如 length、substr 等等)。这些函
数的引用大大的提高了 awk 的运算功能。
作为对条件转移指令的一部分,关系判断是每种程序设计语言都具备的功能,awk 也不
例外。awk 中允许进行多种测试,如常用的==(等于)、!=(不等于)、>(大于)、<(小
于)、>=(大于等于)、<=(小于等于)等等,同时,作为样式匹配,还提供了~(匹配
于)和!~(不匹配于)判断。
作为对测试的一种扩充,awk 也支持用逻辑运算符:!(非)、&&(与)、||(或)和括号()
进行多重判断,这大大增强了 awk 的功能。本文的附录中列出了 awk 所允许的运算、
判断以及操作符的优先级。
awk 的流程控制
流程控制语句是任何程序设计语言都不能缺少的部分。任何好的语言都有一些执行流程
控制的语句。awk 提供的完备的流程控制语句类似于 C 语言,这给我们编程带来了极大
的方便。
1、BEGIN 和 END:
在 awk 中两个特别的表达式,BEGIN 和 END,这两者都可用于 pattern 中(参考前面的
awk 语法),提供 BEGIN 和 END 的作用是给程序赋予初始状态和在程序结束之后执行
一些扫尾的工作。任何在 BEGIN 之后列出的操作(在{}内)将在 awk 开始扫描输入之
前执行,而 END 之后列出的操作将在扫描完全部的输入之后执行。因此,通常使用
BEGIN 来显示变量和预置(初始化)变量,使用 END 来输出最终结果。
例:累计销售文件 xs 中的销售金额(假设销售金额在记录的第三字段):
$awk
>'BEGIN { FS=":";print "统计销售金额";total=0}
>{print $3;total=total+$3;}
>END {printf "销售金额总计:%.2f",total}' sx
(注:>是 shell 提供的第二提示符,如要在 shell 程序 awk 语句和 awk 语言中换行,则
需在行尾加反斜杠\) 在这里,BEGIN 预置了内部变量 FS(字段分隔符)和自定义变
量 total,同时在扫描之前显示出输出行头。而 END 则在扫描完成后打印出总合计。
2、流程控制语句
awk 提供了完备的流程控制语句,其用法与 C 语言类似。下面我们一一加以说明:
2.1、if...else 语句:
格式:
if(表达式)
语句 1
else
语句 2
格式中"语句 1"可以是多个语句,如果你为了方便 awk 判断也方便你自已阅读,你最好
将多个语句用{}括起来。awk 分枝结构允许嵌套,其格式为:
if(表达式 1) {if(表达式 2)
语句 1
else
语句 2
}
语句 3
else {if(表达式 3)
语句 4
else
剩余28页未读,继续阅读
资源评论
- zhen_min2012-11-28资料 质量很差,很乱,感觉上像是拼凑起来的,无条理性
- gujianlong82014-03-20是不断的复制粘帖拼凑出来的吧,但是有些描述还是讲到实处的
Jake443403168
- 粉丝: 47
- 资源: 395
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功