免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 25489 | 回复: 2
打印 上一主题 下一主题

[其他] 苦恼!寻求一种工具分析大文本数据 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-07-12 16:51 |只看该作者 |倒序浏览
各位大大们,大家好!
  
   我现在遇到一个较为困难的事,需要分析近20G 大小的文本文件,文本其实是csv文本,里面有各样的记录信息。现在领导想分析和提取。之前的伙计用的方法是将其全导入MYSQL再用SQL提数汇总计算,但是这样效率超级慢。 
   请问有什么可以提高处理效率的方法呢?因为是离线分析,其实时间在2个小时内都可以接受。 我考虑是否可以使用:Hadoop?还是R语言还是perl还是bash+awk就行了?搞不懂了。大在们有什么建议吗

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
2 [报告]
发表于 2016-07-12 18:26 |只看该作者
perl就可以。

如果真的2小时可接受的话。

论坛徽章:
10
数据库技术版块每日发帖之星
日期:2015-06-14 22:20:00数据库技术版块每日发帖之星
日期:2016-03-10 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-09 06:20:00IT运维版块每日发帖之星
日期:2015-11-02 06:20:00IT运维版块每日发帖之星
日期:2015-07-13 22:59:28IT运维版块每日发帖之星
日期:2015-06-23 22:20:00程序设计版块每日发帖之星
日期:2015-06-21 22:20:00每日论坛发贴之星
日期:2015-06-14 22:20:00IT运维版块每日发帖之星
日期:2016-08-02 06:20:00
3 [报告]
发表于 2016-07-30 09:30 |只看该作者
使用mongo,或hbase,可以给我发一部分数据,我帮你分析下。hiyachen@163.com 回复 1# ipv6ok


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP