本文共 1184 字,大约阅读时间需要 3 分钟。
文本文件按列提取。
过于简单,只能处理固定格式的分隔符,分隔符不能使用正则表达式。
cut option list filecut -b list [-n] [file ...]cut -c list [file ...]cut -f list [-d delim][-s][file ...]
表示 | 意义 |
---|---|
N | 只有第N项 |
N- | 从第N项一直到行尾 |
N-M | 从第N项到第M项(包括M) |
-M | 从一行的开始到第M项(包括M) |
- | 从一行的开始到结束的所有项 |
Linux中提取所有用户
cut -f 1 -d ':' /etc/passwd
以:作为分割符,提取第一个字段 cut -c 8- usercount.pig
grunt> A = load '/data/20160518/1055/100/9_1463541300000/part-00000' using PigStorage('|');grunt> B = foreach A generate $16 as ip;grunt> C = group B by ip;grunt> D = foreach C generate group,COUNT(B);grunt> dump D;
处理后结果
A = load '/data/20160518/1055/100/9_1463541300000/part-00000' using PigStorage('|');B = foreach A generate $16 as ip;C = group B by ip;D = foreach C generate group,COUNT(B);
cut -f 1- -s --output-delimiter='|' table.txt
cat table.txt
table1 xiaohu2 xiaoli3 xiaowang4 xiaoming
处理结果
1|xiaohu2|xiaoli3|xiaowang4|xiaoming
转载地址:http://kvtyo.baihongyu.com/