0%

1、数据仓库与数据挖掘概述

数据仓库与数据挖掘概述

数据仓库的兴起

数据仓库产生原因

A、 数据的大量积累

B、 关系数据库的局限(操作型数据库)

局限:TP(存取频率高、时间短)、AP(消耗资源)特性不同、数据集成度不高、质量问题、数据面向应用而非主题

C、 异构数据源共享问题(各类数据库产品增加导致异构环境数据增加)

异构数据源解决方案

一、 数据仓库

二、联邦数据库

数据仓库与联邦数据库的区别

数据仓库:

  • 优:查询速度快
  • 缺:空间占用大,安全性一般,实时更新一般

联邦数据库:

  • 优:隐私保护性好,空间占用小,实时更新较好
  • 缺:查询处理复杂,速度慢

数据仓库的概念

数据仓库的特点

一个面向主题的、集成的、时变的、非易失的数据集合。

A、面向主题的:与主题相关的数据导入数据仓库,由异构转换为同构;

B、集成的:集成的主要方法:

  • 统一:消除不一致的现象(数据清洗)
  • 综合:对原有数据进行综合和计算

C、时变的:数据仓库保存长期的字段、显/隐式时间类型数据、历史数据,而操作型数据库保留当前数据。

D、非易失的:以读为主,数据相对稳定,一般不执行“更新”操作,主要分析数据。