数据仓库与数据挖掘 数据仓库的概念和定义
联机分析处理(OLAP)
联机分析处理(OLAP)是E.F.Codd在1993年提出的一种软件技术。此技术使分析人员能够迅速、一致且交互地从不同角度观察信息,从而深入理解数据。这些信息直接从原始数据转化而来,并以用户易于理解的方式反映企业的真实情况。OLAP主要策略为将关系型或普通数据进行存储,以便于分析。这种数据库可被视为一个超立方体,数据沿各个维度方向存储,便于用户沿事物轴线分析数据。常见的分析形式包括切片、切块、下钻以及挖掘等操作。
数据集市(DataMart)
数据集市是出于特定应用目的或应用范围,从数据仓库中独立出来的部分数据。它可以被视为部门数据或主题数据。在数据仓库的实施过程中,通常从一个部门的数据集市开始,然后通过多个数据集市组成一个完整的数据仓库。实施不同的数据集市时,需确保同一含义的字段定义保持兼容,以避免在后续实施数据仓库时造成困扰。
数据挖掘(Data Mining)
数据挖掘与机器学习在本质上较为相似,但两者存在细微差别。如果比较两者所涉及的书籍,会发现大部分内容是相互重复的。具体差异如下:机器学习更侧重于技术和算法,常与语音识别、图像视频识别、机器翻译等模式识别技术联系在一起,甚至涉及到如谷歌大脑等AI技术。这些技术的共同点是它们都依赖于极其复杂的算法,机器学习的核心在于各种精妙的算法。而数据挖掘则更偏向于“数据”本身,包括前期数据处理、使用爬虫获取数据、进行数据清洗、整合、有效性检测以及可视化等步骤。再利用统计或机器学习算法提取有用的“知识”。前期数据处理在数据挖掘中占据较大比重。
ETL
ETL是“Extract”(抽取)、“Transform”(转换)、“Load”(装载)三个单词的缩写。在BI/DW(商务智能/数据仓库)领域中,ETL被视为核心和灵魂。它依照统一的规则集成并提升数据的价值,负责完成数据从数据源向目标数据仓库的转化过程。ETL是实施数据仓库的重要步骤之一。
元数据(MetaData)