数据仓库设计与开发
数据仓库设计
系统设计差异
操作型数据库 | 数据仓库 |
---|---|
面向应用 | 面向分析 |
确定的应用需求 | 不确定的分析需求 |
事务处理性能 | 数据的全局一致性 |
数据来自组织外部 | 数据来自系统内部 |
数据仓库设计原则
面向主题原则、数据驱动原则、原型法设计原则
数据仓库设计步骤
1、明确主题
2、概念模型设计
3、技术准备
4、逻辑模型设计
5、物理模型设计
6、数据仓库生成
7、数据仓库的运行与维护
数据仓库设计方法论
DM(数据集市) --> DW(数据仓库) (自底向上)(成本小,收益大)
DW(数据仓库) -->DM(数据集市) (自顶向下)(成本大,收益小)
数据仓库开发
数据粒度
粒度:数据综合程度高低的一个度量
粒度越粗,综合程度越高,存储空间越小,回答的查询种类越多,查询效率越高;
粒度越细,综合程度越低,存储空间越大,回答的查询种类越少,查询效率越低。
年(粗)-->月-->日(细)
分割(分区)
划分方式:水平划分和垂直划分
分区类别::
范围分区:按时间分割,按单位分割。(分布式数据库)
哈希分区:(polarDB-X数据库)
列表分区:按职业、学历分区