免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2516 | 回复: 3
打印 上一主题 下一主题

[文本处理] 如何高效率提取出不同文本的不同行? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2018-04-27 13:23 |只看该作者 |倒序浏览
本帖最后由 work4seo 于 2018-04-27 13:26 编辑

有2个文本需要对比,内容都是一行一个,有相同内容,也有不同内容。需要分别筛选出:
A文件没有,但是B文件有,保存到save_b
B文件没有,但是A文件有,保存到save_a

目前的做法是
grep -vwf A B >>save_b
grep -vwf B A >>save_a

A和B文件见附件
xx.zip (7.31 MB, 下载次数: 1)

但是发现这样做的效率很低,寻求大神给个高效率解决方法,谢谢各位~~~

还有个问题,顺便问一下,如何快速统计出两个文件之间,不同内容的总量。
当然可以把save_a 以及save_b的总行数相加,但这个肯定是比较笨的方法了吧,嘿嘿嘿

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
2 [报告]
发表于 2018-04-27 14:04 |只看该作者
grep -vxFf A B >>save_b
这样是否能稍微快点?

论坛徽章:
0
3 [报告]
发表于 2018-04-27 14:16 |只看该作者
Shell_HAT 发表于 2018-04-27 14:04
grep -vxFf A B >>save_b
这样是否能稍微快点?

谢谢版主大神!
这样果然快了好多

论坛徽章:
24
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:2315-16赛季CBA联赛之佛山
日期:2019-09-10 18:08:4615-16赛季CBA联赛之山西
日期:2020-03-26 09:40:5115-16赛季CBA联赛之佛山
日期:2020-05-08 09:03:54
4 [报告]
发表于 2018-04-27 15:29 |只看该作者
comm -1 a.txt b.txt
comm -2 a.txt b.txt
comm -3 a.txt b.txt
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP