免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4293 | 回复: 5
打印 上一主题 下一主题

[文本处理] 统计每一行相同字符串的个数 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-02-18 13:01 |只看该作者 |倒序浏览
有一个文件:(tab分隔)
r1        115466        S        C        ./.        ./.        0/0        ./.        ./.
r1        546608        F        C        ./.        0/1        0/0        ./.        1/1
r2        566085        T        H        0/0        ./.        0/1        ./.        ./.

想要对每一行第5列后的字符串出现的次数进行统计:(tab分隔)
r1        115466        S        C        ./.:4           0/0:1
r1        546608        F        C        ./.:2           0/1:1    0/0:1    1/1:1
r2        566085        T        H        0/0:1   ./.:3     0/1:1

请问大神们,该怎么办呀??谢谢啦!!

论坛徽章:
3
2015年迎新春徽章
日期:2015-03-04 09:56:11数据库技术版块每日发帖之星
日期:2016-08-03 06:20:00数据库技术版块每日发帖之星
日期:2016-08-04 06:20:00
2 [报告]
发表于 2016-02-18 13:22 |只看该作者
用awk写个小程序

论坛徽章:
12
射手座
日期:2014-10-02 11:31:29程序设计版块每日发帖之星
日期:2016-05-28 06:20:00每日论坛发贴之星
日期:2016-05-27 06:20:00程序设计版块每日发帖之星
日期:2016-05-27 06:20:00程序设计版块每日发帖之星
日期:2016-05-25 06:20:00每日论坛发贴之星
日期:2016-05-24 06:20:00程序设计版块每日发帖之星
日期:2016-05-24 06:20:0015-16赛季CBA联赛之深圳
日期:2016-05-23 15:33:59程序设计版块每日发帖之星
日期:2016-05-20 06:20:00程序设计版块每日发帖之星
日期:2016-04-26 06:20:00神斗士
日期:2015-12-03 09:27:3215-16赛季CBA联赛之八一
日期:2016-12-29 09:56:05
3 [报告]
发表于 2016-02-18 13:36 |只看该作者
回复 2# cjaizss
大神们,
awk小程序该怎么写呀?
   

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
4 [报告]
发表于 2016-02-18 13:53 |只看该作者
  1. awk '{OFS="\t";for(i=5;i<=NF;i++)a[$i]++;for(i in a){m++;$(4+m)=i":"a[i]};NF=4+length(a);delete a;m=0}1' file
复制代码

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
5 [报告]
发表于 2016-02-18 14:00 |只看该作者
  1. awk '{for(i=1;i<=NF;i++) {if(i>4) {if(!a[$i]) {b[++t]=$i} a[$i]++} else printf $i"\t"} for(i=1;i<=t;i++) printf b[i]":"a[b[i]]"\t";delete a;delete b;t=0;print ""}'  file
  2. r1      115466  S       C       ./.:4   0/0:1
  3. r1      546608  F       C       ./.:2   0/1:1   0/0:1   1/1:1
  4. r2      566085  T       H       0/0:1   ./.:3   0/1:1
复制代码
回复 1# gooderpan


   

论坛徽章:
0
6 [报告]
发表于 2016-02-19 15:15 |只看该作者
awk '{for(i=5;i<=NF;i++)a[$i]++;for(i=1;i<=4;i++)printf "%s\t",$i;for(i in a) printf "%s\t",i":"a[i];printf "\n";delete a}' file
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP