免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234下一页
最近访问板块 发新帖
查看: 15597 | 回复: 34
打印 上一主题 下一主题

MySQL版《一周一议》之基于mysql的DW(数据仓库)/BI(商务智能)解决方案(积分已转账) [复制链接]

论坛徽章:
8
CU大牛徽章
日期:2013-09-18 15:20:48CU大牛徽章
日期:2013-09-18 15:20:58CU大牛徽章
日期:2013-09-18 15:21:06CU大牛徽章
日期:2013-09-18 15:21:12CU大牛徽章
日期:2013-09-18 15:21:17天秤座
日期:2013-10-30 14:01:03摩羯座
日期:2013-11-29 18:02:31luobin
日期:2016-06-17 17:46:36
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-11-20 09:52 |只看该作者 |倒序浏览
积分已转账,请注意查收!

         上上周我们开出了CU mysql板块每周一议的话题征集帖子,关注的网友还是挺多的。上周是mysql板《一周一议》的第一个话题,在确定话题的时候,我也在想会不会选的这个话题难度太大,导致曲高和寡,但是反过来一想,如果没有高的曲,高手是不愿意现身说法的,所以冒着挺大的风险发布了第一周的话题。总的来说第一期的效果还是不错的,谢谢各位mysqler和cuer的大力支持。

现在隆重宣布上周获得《mysql技术内幕,SQL技术编程》的用户是:hbsycw。
其他参与讨论的用户到将至少获得20积分,积分是需要管理员手工加,加上后会发站内信的。

本周的话题是主要和大数据量有关系。

基于mysql的DW(数据仓库)/BI(商务智能)解决方案。
DW和BI使用的数据库软件主要有以下特点:
1、数据量大  2、大量的OLAP处理  3、数据结构的变化 4、分析需求变化 5、数据安全和备份

一个好的数据仓库应该有以下特点:
1、效率足够高
2、数据质量好
3、扩展性强

本话题主要包括以下几个讨论点。
1、你知道的mysql在DW/BI方面的应用案例,及案例相关的架构描述,包括数据库仓库模型设计和ETL相关的信息。

2、mysql在DW/BI应用上的主要限制?

3、在管理基于mysql的DW/BI系统时候,你遇见的挑战和解决方案?

4、如果大家没有做过BI或者DW相关的项目,可以聊聊你管理的mysql的size情况,比如单表最大多少,单库最大多少,在数据量上去以后出现的问题及解决方案等等?

活动奖励:
1、每周会评选一位最活跃的用户,有一本mysql相关的书籍送出,本周送出的书籍是《数据挖掘(概念与技术)》由机械工业出版社出版。
2、由于是话题讨论,所以每位参加者都能获得适当的积分奖励。最低20分,最高不限,^_^想要赚分的朋友也可以来凑热闹哟。

论坛徽章:
8
CU大牛徽章
日期:2013-09-18 15:20:48CU大牛徽章
日期:2013-09-18 15:20:58CU大牛徽章
日期:2013-09-18 15:21:06CU大牛徽章
日期:2013-09-18 15:21:12CU大牛徽章
日期:2013-09-18 15:21:17天秤座
日期:2013-10-30 14:01:03摩羯座
日期:2013-11-29 18:02:31luobin
日期:2016-06-17 17:46:36
2 [报告]
发表于 2012-11-20 10:04 |只看该作者
我还是先来唠叨几句吧。

我知道也有那么几个公司的DW和BI是基于mysql的。不过主要还是用来分析业务数据而不是日志,所以数据量不算很大。

如果你之前的业务数据使用的是mysql存储,那么你DW使用mysql的话数据兼容性很好。可以通过federated和stored process来很快的实现ETL,并且程序的开发成本也会比较低,不会有太多新的接口技术,开发在实施起来也比较快。

缺点就是对大数据量的存储和查询会比较老火,如果这边的情况是当单表上百G,单表记录数上1E的时候,做聚合和DDL都会很慢,相对于oracle会慢很多。

infobright是个好东西,压缩比相当高,查询速度也很快。不过社区版的不能DDL和DML,相当蛋疼,也不能和其他引擎的表关联查询也是一大限制,如果使用商业版,或者你的接受每次使用 load data infile操作的话,还是不错的选择。

楼下请继续....

论坛徽章:
223
2022北京冬奥会纪念版徽章
日期:2015-08-10 16:30:32操作系统版块每日发帖之星
日期:2016-05-10 19:22:58操作系统版块每日发帖之星
日期:2016-02-18 06:20:00操作系统版块每日发帖之星
日期:2016-03-01 06:20:00操作系统版块每日发帖之星
日期:2016-03-02 06:20:0015-16赛季CBA联赛之上海
日期:2019-09-20 12:29:3219周年集字徽章-周
日期:2019-10-01 20:47:4815-16赛季CBA联赛之八一
日期:2020-10-23 18:30:5320周年集字徽章-20	
日期:2020-10-28 14:14:2615-16赛季CBA联赛之广夏
日期:2023-02-25 16:26:26CU十四周年纪念徽章
日期:2023-04-13 12:23:10操作系统版块每日发帖之星
日期:2016-05-10 19:22:58
3 [报告]
发表于 2012-11-20 10:34 |只看该作者
不熟悉哦,


2、mysql在DW/BI应用上的主要限制?

老话题,还是io,

论坛徽章:
8
CU大牛徽章
日期:2013-09-18 15:20:48CU大牛徽章
日期:2013-09-18 15:20:58CU大牛徽章
日期:2013-09-18 15:21:06CU大牛徽章
日期:2013-09-18 15:21:12CU大牛徽章
日期:2013-09-18 15:21:17天秤座
日期:2013-10-30 14:01:03摩羯座
日期:2013-11-29 18:02:31luobin
日期:2016-06-17 17:46:36
4 [报告]
发表于 2012-11-20 10:37 |只看该作者
@action08
我不太认同。
我觉得还是mysql对OLAP的优化不够。在相同硬件下,mysql在OLAP的效率上和ORACLE有很大差距。

论坛徽章:
223
2022北京冬奥会纪念版徽章
日期:2015-08-10 16:30:32操作系统版块每日发帖之星
日期:2016-05-10 19:22:58操作系统版块每日发帖之星
日期:2016-02-18 06:20:00操作系统版块每日发帖之星
日期:2016-03-01 06:20:00操作系统版块每日发帖之星
日期:2016-03-02 06:20:0015-16赛季CBA联赛之上海
日期:2019-09-20 12:29:3219周年集字徽章-周
日期:2019-10-01 20:47:4815-16赛季CBA联赛之八一
日期:2020-10-23 18:30:5320周年集字徽章-20	
日期:2020-10-28 14:14:2615-16赛季CBA联赛之广夏
日期:2023-02-25 16:26:26CU十四周年纪念徽章
日期:2023-04-13 12:23:10操作系统版块每日发帖之星
日期:2016-05-10 19:22:58
5 [报告]
发表于 2012-11-20 10:42 |只看该作者
回复 4# chinafenghao


    oracle太会吃内存了,缺点这时就成 了优点

论坛徽章:
8
CU大牛徽章
日期:2013-09-18 15:20:48CU大牛徽章
日期:2013-09-18 15:20:58CU大牛徽章
日期:2013-09-18 15:21:06CU大牛徽章
日期:2013-09-18 15:21:12CU大牛徽章
日期:2013-09-18 15:21:17天秤座
日期:2013-10-30 14:01:03摩羯座
日期:2013-11-29 18:02:31luobin
日期:2016-06-17 17:46:36
6 [报告]
发表于 2012-11-20 10:58 |只看该作者
@action08
我说的是相同硬件情况下。mysql如果用innodb和oracle使用的内存差不多的。oracle也不是说一定要吃你好多内存,肯定内存多了效率高。
我这里不是说mysql不好,我只是客观的表达mysql在OLAP上面的不足。

对于100G的mysql表来说,给一列建立一个索引,如果表大概10列,没列长度差不多,那么索引文件的大小应该在1/10左右,至少5个G以上。
但是对于oracle,使用BITMAP索引,100G的数据库,建立一个索引只有几百M,你说OLAP取读5G的索引块还是读几百M的索引块呢。

论坛徽章:
223
2022北京冬奥会纪念版徽章
日期:2015-08-10 16:30:32操作系统版块每日发帖之星
日期:2016-05-10 19:22:58操作系统版块每日发帖之星
日期:2016-02-18 06:20:00操作系统版块每日发帖之星
日期:2016-03-01 06:20:00操作系统版块每日发帖之星
日期:2016-03-02 06:20:0015-16赛季CBA联赛之上海
日期:2019-09-20 12:29:3219周年集字徽章-周
日期:2019-10-01 20:47:4815-16赛季CBA联赛之八一
日期:2020-10-23 18:30:5320周年集字徽章-20	
日期:2020-10-28 14:14:2615-16赛季CBA联赛之广夏
日期:2023-02-25 16:26:26CU十四周年纪念徽章
日期:2023-04-13 12:23:10操作系统版块每日发帖之星
日期:2016-05-10 19:22:58
7 [报告]
发表于 2012-11-20 11:07 |只看该作者
本帖最后由 action08 于 2012-11-20 11:08 编辑
chinafenghao 发表于 2012-11-20 10:58
@action08
我说的是相同硬件情况下。mysql如果用innodb和oracle使用的内存差不多的。oracle也不是说一定要 ...


谁快谁慢关键看数据结构的呀,不见得index file几G的速度就比不上几百M的。。

不仅仅是OLAP,很多程序都喜欢将很多问题交给数据库,操作系统,而不是自己处理潜在的细节问题。oracle貌似做的就是这种人的市场

论坛徽章:
8
CU大牛徽章
日期:2013-09-18 15:20:48CU大牛徽章
日期:2013-09-18 15:20:58CU大牛徽章
日期:2013-09-18 15:21:06CU大牛徽章
日期:2013-09-18 15:21:12CU大牛徽章
日期:2013-09-18 15:21:17天秤座
日期:2013-10-30 14:01:03摩羯座
日期:2013-11-29 18:02:31luobin
日期:2016-06-17 17:46:36
8 [报告]
发表于 2012-11-20 11:19 |只看该作者
本帖最后由 chinafenghao 于 2012-11-20 11:19 编辑

@action08
当然,如果你公司有能力做一个很牛B的中间件,确实可以弥补这个问题。但是对于一般的公司可能很难实现。我讨论的只是单独数据库层面的处理能力。

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
9 [报告]
发表于 2012-11-20 14:34 |只看该作者
回复 1# chinafenghao

感谢CU,感谢chinafenghao


   

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
10 [报告]
发表于 2012-11-20 14:40 |只看该作者
本周话题很有意思,不过,对于BI/DW应用,MYSQL应该不是它的强项~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP