论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2011-05-26 10:28 |只看该作者 |倒序浏览

一系统层面
数据仓库的源数据比较多，可能是从其他的业务数据库中取出来，也可能是其他的业务配置文件，也可能是不规整的原始日志，但总体的思路逃不出一下几点【过程】:

1.数据源的抓取【其他的业务数据库数据，其他的业务配置文件，不规整的原始日志等等】

2.数据源的格式化【过滤非法数据，格式化成能够装载的文本或者SQL】

3. 装载到数据库

4. ＳＱＬ方式生成模型表,业务表,dimension表

5. 生成fact

6.根据dimension 和 fact 配合前端显示了

第4,5到了SQL层，基本上比较好控制了, 重点是前面3步:
如果hard coding , 那么如何让这三步自动化，同时具有扩展性？个人认为，必须要理清楚数据源的来源，方式，在这个前提下，基本框架可以定下来，留下必要的扩展接口就可以了

那么剩下的工作就是数据流的监控了和修补的自动化处理了

二服务器层面
系统部署在N台服务器上,N>=1
如果服务器资源不是问题，服务器根据功能角色分到不同的独立服务器，机器冗余备份做完善些，需要充分考虑到计算节点如果当了，该怎么处理，
系统在多台机器上，这些机器的通信借口如何定义？
数据的备份策略:这个就跟业务有关系了，日志是用什么手段压缩？存放多长时间？DB用什么手段备份，备份多长时间？

这个可能是笔者考虑到的问题，可能不够全面，楼下的补充。。