awk的工作原理
一次读取一行文本,按输入分隔符进行切片,切成多个组成部分,将每片直接保存在内建的变量中,$1,$2,$3....,引用指定的变量,可以显示指定断,或者多个断。如果需要显示全部的,需要使用$0来引用。可以对单个片断进行判断,也可以对所有断进行循环判断。其默认分隔符为空格
awk的基本用法格式
-
awk [options] 'program' FILE......
-
[options]
-
-F : 指明输入时用到的字段分隔符
-
-v var=VALUE : 自定义变量
awk用法的简要介绍
-
第一种模式
-
awk [options] 'scripts' file1,file2.....
在这种模式中,scripts主要是命令的堆砌,对输入的文本行进行处理,通过命令print,printf或是输出重定向的方式显示出来,这里经常用到的知识点是:awk的内置变量,以及命令print和printf的使用
-
第二种模式
第一种模式
1、print
-
1、各项目之间使用逗号隔开,而输出时则以空白字符分隔
-
2、输出的Item可以为字符串或数值,当前记录的字段(如$1)、变量或awk的表达式,数值会先转换为字符串,而后再输出
-
3、print命令后面的Item可以省略,此时其功能相当于print $0,因此,如果想输出空白行,则需要使用print""
-
4、如果引用变量$1或其他的,是不能使用引号引起来
2、内置变量
3、自定义变量
4、printf命令
-
其格式化输出:printf FORMAT,item1,item2....
要点:
-
1、其与print命令最大不同是,printf需要指定format
-
2、printf后面的字串定义内容需要使用双引号引起来
-
3、字串定义后的内容需要使用","分隔,后面直接跟Item1,item2....
-
4、format用于指定后面的每个item的输出格式
-
5、printf语句不会自动打印换行符,\n
格式符
-
%c: 显示字符的ASCII码
-
%d,%i : 显示十进制整数
-
%e,%E: 科学计数法数值显示
-
%f : 显示为浮点数
-
%g,%G: 以科学数法或浮点形式显示数值
-
%s: 显示字符串
-
%u: 无符号整数
-
%%: 显示%号自身,相当于转义
修饰符
-
N : 显示宽度
-
- : 左对齐(默认为右对齐)
-
+ : 显示数值符号
-
示例:
-
awk -F: '{printf "%s\n",$1}' /etc/fstab
-
awk -F: '{printf "username: %s,UID:%d\n",$1,$3}' /etc/passwd
-
awk -F: '{printf "username: %-20s shell: %s\n",$1,$NF}' /etc/passwd
输出重定向
* 示例
* awk -F: '{printf "%-15s %i\n",$1,$3 > "/dev/stderr"}' /etc/passwd
第二种模式
-
awk [option] 'PATTERN{action}' file1,file2....
PATTERN的使用
-
REGEXP:正则表达式,格式为/regular expression/,仅处理能够被此处模式匹配到的行
awk '/^UUID/{print $1}' /etc/fstab
awk '!/^UUID/{print $1}' /etc/fstab
-
relational expression:表达式,其值非0或为非空字符时满足条件,用运算符~(匹配)和!~(不匹配)
$1 ~ /foo/ 或者 $1 == "magedu"
-
Ranges : 指定匹配范围,格式为/pat1/,/pat2/
awk -F: '{NR>=2&&<=10){print $1}' /etc/passwd
awk -F: /^root/,/^myuser/{print $1}' /etc/passwd
注意:不支持直接给出数字的格式
-
BEGIN/END模式 : 特殊模式,仅在awk命令执行前运行一次或结束前运行一次
awk -F: 'BEGIN{print "Username ID Shell"}{printf "%-10s%-10s%-20s\n",$1,$3,$7}' /etc/passwd :先打印一个表头
awk -F: 'BEGIN{print "username ID Shell"}{printf "%-10s%-10s%-20s\n",$1,$3,$7}END{print "end of report."} /etc/passwd :打印一个表尾
-
Empty(空模式):匹配任意输入行
/正则表达式/:使用通配符的扩展集。
关系表达式:可以用下面运算符表中的关系运算符进行操作,可以是字符串或数字的比较,如$2>$1选择第二个字段比第一个字段长的行。
模式匹配表达式:
模式,模式:指定一个行的范围。该语法不能包括BEGIN和END模式。
BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。
END:让用户在最后一条输入记录被读取之后发生的动作。
常见的Action
-
1)Expressions
-
2) Control statements :if while等
-
3) Compound statements:组合语句
-
4) Input statements
-
5) Output statements
控制语句
1、if-else
-
语法:if (condition){then-body} else{[else-body]}
-
示例:
-
awk -F: '{if($3>=1000)print $1,$3}' /etc/passwd
-
awk -F: '{if($3>=1000){printf "Common user: %s\n",$1} else {printf "root or sysuser: %s\n",$1}}' /etc/passwd
-
awk -F: '{if($NF=="/bin/bash")print $1}' /etc/passwd
-
awk -F: '{if(NF>5) print $0}' /etc/fstab
-
df -h | awk -F[%] '/^\/dev/{print $1}' | awk {if($NF>=20) print $1}'
-
awk -F: '{if($1=="root") print $1,"Admin";else print $1, "Common User"}' /etc/passwd
-
awk -F: '{if($1=="root") printf "%-15s: %s\n",$1,"Admin";else printf "%-15s: %s\n",$1, "Common user"}' /etc/passwd
-
awk -F: -v sum=0 '{if($3>=500) sum++}END{print sum}' /etc/passwd : 统计用户ID大于500的有多少行
-
awk -F: -v OFS="\t" '{if($3<=999)printf "Sys user:\t%-15s ID is :%d\n", $1,$3;else{printf "Common user:\t%-15s ID is :%d\n",$1,$3}}' /etc/passwd :可以使用\t制表符控制 输出格式
2、while:用于循环字段的
-
语法:while (condition){statement1;statment2;....}
-
示例:
-
awk '/^[[:space:]]*linux16/{print}' /boot/grub2/grub.cfg
-
awk '/^[[:space:]]*linux16/{i=1;while(i<=NF){print $i,length($i);i++}}' /etc/grub2.cfg :对每个字段进行字符个数统计
-
awk '/^[[:space:]]]*linux16/{i=1;while(i<=NF){if(length($i)<=7)print $i,length($i);i++}}' /etc/grub2.cfg
-
awk -F: '{i=1;while(i<=3){print $i;i++}}' /etc/passwd:打印用户名、密码占位符、ID
-
awk -F: '{i=1;while(i<=NF){if(length($i)>=4){print $i};i++}}' /etc/passwd : 字段大小于等于4的都显示
3、do-while
-
语法:do {statement1,statement2,....} while (dondition)
-
示例:
-
awk -F: '{i=1;do{print $i;i++}while(i<=3)}' /etc/passwd :打印用户名、密码占位符、UID
4、for
6、case
-
语法:switch (expression) { case VALUE or /REGEXP/: statement1, statement2,... default: statement1, ...}
7、break和continue
-
break [n]
-
continue : 进入下一个字段
8、next
-
功能:提前结束本行文本的处理,并接着处理下一行
-
示例:
-
awk -F: '{if($3%2==0) next;print $1,$3}' /etc/passwd
-
awk -F: ‘{if ($3%2!=0) next;print $1,$3}’ /etc/passwd
awk的操作符
-
1、算术操作符
-
-x : 负值
-
+x : 转换为数值
-
x^y :
-
x**y : 次方
-
x*y : 乘法
-
x/y : 除法
-
x+y :
-
x-y :
-
x%y :
-
2、字符串操作符
-
3、赋值操作符
-
4、布尔值
awk中,任何非0值或非空字符串都为真,反之为假
-
5、比较操作符
-
x<y
-
x<=y
-
x>y
-
x>=y
-
x==y
-
x!=y
-
x~y
-
x!~y
-
6、逻辑操作符
-
7、函数调用
-
`func_name(argu1,argu2,....)
-
8、条件表达式
-
selector?if-true-expression:if-false-expression
-
awk -F: ‘{$3>=1000?usertype=“Common user”:usertype=“Sysadmin or sysUser”;printf “%15s:%-s\n",$1,usertype}’ /etc/passwd
awk的数组
1、定义数组的注意事项
-
1、可使用任意字符串,字符串要使用双引号
-
2、如果某数组元素事先不存在,在引用时awk会自动创建此元素,并将其初始化为空串
-
3、要遍历数组中的每个元素,要使用for循环
-
awk 'BEGIN{weekdays["mon"]="Monday";weekdays["tue"]="Tuesday";print week["mon"]}'
示例:
重点解析一下这条命令:
首先,shell[$NF]++这个语句。其中的$NF所代表的是一个字符串,即shell的类型。也就是说在这个数组中的元素名称是shell的名称。而后面的++是对这个数组进行赋值。因为在/etc/passwd 这个文件中的shell类型只有两种,即/bin/bash和/sbin/nologin。也就是说这个数组就只有两个元素,并且它的值是不断被更新的。其次,语句for(A in shell)是设定了A是数组shell中的坐标变量,即是A是元素的名称,shell[A]是数组的值。
删除数组变量
awk的内置函数
番外篇!!!!
Linux Web服务器网站故障分析常用的命令
系统连接状态篇:
1.查看TCP连接状态
netstat -nat |awk ‘{print $6}’|sort|uniq -c|sort -rn
netstat -n | awk ‘/^tcp/ {++S[$NF]};END {for(a in S) print a, S[a]}’ 或
netstat -n | awk ‘/^tcp/ {++state[$NF]}; END {for(key in state) print key,"\t",state[key]}’
netstat -n | awk ‘/^tcp/ {++arr[$NF]};END {for(k in arr) print k,"t",arr[k]}’
netstat -n |awk ‘/^tcp/ {print $NF}’|sort|uniq -c|sort -rn
netstat -ant | awk ‘{print $NF}’ | grep -v ‘[a-z]‘ | sort | uniq -c
2.查找请求数请20个IP(常用于查找攻来源):
netstat -anlp|grep 80|grep tcp|awk ‘{print $5}’|awk -F: ‘{print $1}’|sort|uniq -c|sort -nr|head -n20
netstat -ant |awk ‘/:80/{split($5,ip,":");++A[ip[1]]}END{for(i in A) print A[i],i}’ |sort -rn|head -n20
3.用tcpdump嗅探80端口的访问看看谁最高
tcpdump -i eth0 -tnn dst port 80 -c 1000 | awk -F"." ‘{print $1"."$2"."$3"."$4}’ | sort | uniq -c | sort -nr |head -20
4.查找较多time_wait连接
netstat -n|grep TIME_WAIT|awk ‘{print $5}’|sort|uniq -c|sort -rn|head -n20
5.找查较多的SYN连接
netstat -an | grep SYN | awk ‘{print $5}’ | awk -F: ‘{print $1}’ | sort | uniq -c | sort -nr | more
6.根据端口列进程
netstat -ntlp | grep 80 | awk ‘{print $7}’ | cut -d/ -f1
netstat -tnlp | awk '/22/{split($NF,port,"/");d[port[1]]++}END{for(i in d)print i}'
网站日志分析篇1(Apache):
1.获得访问前10位的ip地址
cat access.log|awk ‘{print $1}’|sort|uniq -c|sort -nr|head -10
cat access.log|awk ‘{counts[$(11)]+=1}; END {for(url in counts) print counts[url], url}’
2.访问次数最多的文件或页面,取前20
cat access.log|awk ‘{print $11}’|sort|uniq -c|sort -nr|head -20
3.列出传输最大的几个exe文件(分析下载站的时候常用)
cat access.log |awk ‘($7~/.exe/){print $10 " " $1 " " $4 " " $7}’|sort -nr|head -20
4.列出输出大于200000byte(约200kb)的exe文件以及对应文件发生次数
cat access.log |awk ‘($10 > 200000 && $7~/.exe/){print $7}’|sort -n|uniq -c|sort -nr|head -100
5.如果日志最后一列记录的是页面文件传输时间,则有列出到客户端最耗时的页面
cat access.log |awk ‘($7~/.php/){print $NF " " $1 " " $4 " " $7}’|sort -nr|head -100
6.列出最最耗时的页面(超过60秒的)的以及对应页面发生次数
cat access.log |awk ‘($NF > 60 && $7~/.php/){print $7}’|sort -n|uniq -c|sort -nr|head -100
7.列出传输时间超过 30 秒的文件
cat access.log |awk ‘($NF > 30){print $7}’|sort -n|uniq -c|sort -nr|head -20
8.统计网站流量(G)
cat access.log |awk ‘{sum+=$10} END {print sum/1024/1024/1024}’
9.统计404的连接
awk ‘($9 ~/404/)’ access.log | awk ‘{print $9,$7}’ | sort
10. 统计http status
cat access.log |awk ‘{counts[$(9)]+=1}; END {for(code in counts) print code, counts[code]}'
cat access.log |awk '{print $9}'|sort|uniq -c|sort -rn
10.蜘蛛分析,查看是哪些蜘蛛在抓取内容。
/usr/sbin/tcpdump -i eth0 -l -s 0 -w - dst port 80 | strings | grep -i user-agent | grep -i -E 'bot|crawler|slurp|spider'
网站日分析2(Squid篇)按域统计流量
zcat squid_access.log.tar.gz| awk '{print $10,$7}' |awk 'BEGIN{FS="[ /]"}{trfc[$4]+=$1}END{for(domain in trfc){printf "%st%dn",domain,trfc[domain]}}'
数据库篇
1.查看数据库执行的sql
/usr/sbin/tcpdump -i eth0 -s 0 -l -w - dst port 3306 | strings | egrep -i 'SELECT|UPDATE|DELETE|INSERT|SET|COMMIT|ROLLBACK|CREATE|DROP|ALTER|CALL'
系统Debug分析篇
1.调试命令
strace -p pid
2.跟踪指定进程的PID
gdb -p pid
(责任编辑:好模板) |