免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2167 | 回复: 5
打印 上一主题 下一主题

[文本处理] 怎样在选择列时,排除掉列中括号的干扰? [复制链接]

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2016-01-01 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-12-28 18:36 |只看该作者 |倒序浏览
目前我有个apache日志,每列以空格分隔,但列中允许有空格,当存在空格时,列要用引号引起来。比如这样:

1.1.1.1 - - [26/Dec/2015:00:05:43 +0800] "GET /123/ HTTP/1.1" 503 1706 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)" "www.test.com" 13920

其中 "GET /123/ HTTP/1.1" 是单独的一列,"Googlebot/2.1 (+http://www.google.com/bot.html)"也是单独一列,但它们当中都有空格。


现在我希望就以日志中的这种规则作为列的划分方法,取出其中某几列的内容。用sed、awk或者其他什么工具,能实现呢?

论坛徽章:
39
双子座
日期:2014-08-06 17:37:19极客徽章
日期:2016-12-07 14:03:402017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:39:4215-16赛季CBA联赛之新疆
日期:2017-03-24 16:36:1915-16赛季CBA联赛之江苏
日期:2017-04-26 17:19:08黑曼巴
日期:2018-03-07 18:56:5615-16赛季CBA联赛之八一
日期:2018-03-09 10:44:1015-16赛季CBA联赛之江苏
日期:2018-03-12 15:12:1915-16赛季CBA联赛之青岛
日期:2018-03-16 09:13:0515-16赛季CBA联赛之山东
日期:2018-04-27 18:23:0515-16赛季CBA联赛之新疆
日期:2018-05-04 11:29:30
2 [报告]
发表于 2015-12-28 19:29 |只看该作者
如果只取这2样  为什么不以引号为分隔符呢?

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
3 [报告]
发表于 2015-12-28 21:39 |只看该作者
回复 1# number321


    $ cat p.pl
#!/usr/bin/perl

use strict;
use warnings;

use v5.14;
use autodie;
use Data::Dumper;

while (<DATA>) {
  chomp;
  my @fields = m/^\s* (.*) \s+ (.*) \s+ (.*) \s+ \[ ([^]]+) \] \s+ " ([^"]+) " \s+ (.*) \s+ (.*) \s+ " ([^"]+) " \s+ " ([^"]+) " \s+ " ([^"]+) " \s+ (.*) \s*$/x;
  print Dumper(\@fields);
}

__DATA__
1.1.1.1 - - [26/Dec/2015:00:05:43 +0800] "GET /123/ HTTP/1.1" 503 1706 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)" "www.test.com" 13920

$ ./p.pl
$VAR1 = [
          '1.1.1.1',
          '-',
          '-',
          '26/Dec/2015:00:05:43 +0800',
          'GET /123/ HTTP/1.1',
          '503',
          '1706',
          '-',
          'Googlebot/2.1 (+http://www.google.com/bot.html)',
          'www.test.com',
          '13920'
        ];

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
4 [报告]
发表于 2015-12-29 00:21 |只看该作者
回复 1# number321

$ awk -f q.awk FILE
NF=15 before modified
NF=12 after modified
$1 = <1.1.1.1>
$2 = <->
$3 = <->
$4 = <[26/Dec/2015:00:05:43>
$5 = <+0800]>
$6 = <"GET /123/ HTTP/1.1">
$7 = <503>
$8 = <1706>
$9 = <"-">
$10 = <"Googlebot/2.1 (+http://www.google.com/bot.html)">
$11 = <"www.test.com">
$12 = <13920>

$ cat q.awk
function qq( c,n){
  c = 0;
  for (n = 1; n <= NF; n++) {
    if($n~/^"/ && $n~/"$/){
      #gsub(/"/,"")  # for removed the "
      $(++c) = $n
      continue
    }
    if(q == 1){
      if($n~/"$/){
      #if(sub(/"$/,"",$n)){   # for removed the "
        q = 0
      }
      $c = $c FS $n
      continue
    }
    if($n~/^"/){
    #if(sub(/^"/,"",$n)){   # for removed the "
      q = 1
      $(++c) = $n
      continue
    }
    $(++c) = $n
  }
  NF = c
}
{
  print "NF="NF,"before modified"
  qq();
  print "NF="NF,"after modified"
  for (n = 1; n <= NF; n++) {
    printf("$%d = <%s>\n", n, $n)
  }
}

   

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2016-01-01 06:20:00
5 [报告]
发表于 2015-12-29 04:25 |只看该作者
这样都是通过脚本来实现了吧,用脚本的话是可以实现我说的效果。我现在就是先弄一个python脚本,接收管道输入,将引号内的空格全部替换成_,然后再用awk选取列的。

但这样感觉多了一道,不知道可不可以用sed和awk直接用一句命令来实现呢?

论坛徽章:
0
6 [报告]
发表于 2015-12-31 21:36 |只看该作者
回复 1# number321
这个应该也是单独的一列吧
  1. [26/Dec/2015:00:05:43 +0800]
复制代码
把分隔符换成','了, 如果你要换成别的就自己改OFS吧
  1. awk '{for(i=1;i<=NF;i++){if(t){s=s" "$i;if($i~/[]"]$/){$(t-sft)=s;sft+=i-t;t=0;s=""}}else{$(i-sft)=$i};if($i~/^["[]/&&$i!~/[]"]$/){t=i;s=$i};};NF-=sft;OFS=",";print}'
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP