什么是数据仓库

2022-07-16 15:07:50 admin

什么是数据仓库?数据仓库 (DW) 是一种数字化存储系统,是智慧企业数据战略的集合,用于连接和协调来自不同数据源的大量数据,数据仓库的最终目的是为商业智能、报告和分析提供数据支持,并满足法规要求,帮助企业将数据转化为洞察,并制定由数据驱动的明智决策。数据仓库会集中存储历史数据和最新数据,为企业提供统一的真实数据源。

数据通常按照一定的频率从操作系统(如 ERP 和 CRM)、数据库以及外部数据源(如合作伙伴系统、物联网 (IoT) 设备、天气应用和社交媒体)流入数据仓库。云计算的出现打破了这种格局。近年来,数据存储位置已经从传统的本地基础架构发展到多个位置,包括本地、私有云和公共云等。

现代化数据仓库的特点在于能够同时处理结构化和非结构化数据,比如视频、图像文件和传感器数据。数据仓库与数据挖掘的关系密不可分,企业通过建立自己的数据仓库并利用集成分析工具内存数据库技术(将数据集保存在计算机内存中而不是磁盘中)来实现对可信数据的实时访问,从中挖掘出实用有效的信息帮助制定有把握的决策。如果没有数据仓库,企业就难以整合不同来源的数据,也不能确保数据的格式满足分析要求,更无法获得当前和长期的数据视图。


数据仓库的优势

数据仓库是企业数字化转型的有力支持,设计优良的数据仓库是商业智能及分析计划取得成功的基础。其主要功能是为报表、仪表盘和分析工具提供支持,这些都是当今企业不可或缺的工具。数据仓库为由数据驱动的决策提供详细的bi数据支持,帮助企业在各个领域作出正确的决策,包括新产品开发和库存水平管理等。数据仓库有诸多优势。例如:

优化业务分析:借助数据仓库,决策者可以访问来自多个数据源的数据,无需再根据不完整的信息制定决策。

加快查询速度:数据仓库构建的主要目的是为了提高数据检索和分析速度。企业可以通过数据仓库快速查询大量经整合的数据,几乎不需要 IT 部门支持。

提高数据质量:在将数据清理案例加载到数据仓库之前,系统会创建数据清理案例并将其输入到工作清单中待进一步处理,确保数据转换为统一的格式,用高质量、准确的数据来支持分析和决策。

提供历史洞察:数据仓库存储了丰富的历史数据,有助于决策者从过去的趋势和挑战中汲取经验教训,对企业的运营进行预测分析,从而持续改善业务。


数据仓库能存储哪些内容?

在 20 世纪 80 年代末,数据仓库开始流行,主要用于存储有关人员、产品和交易的信息。这些数据称为结构化数据,具有整洁的结构和格式且便于访问。但是,随着企业数字化转型以及工业4.0等理念的提出,结构化数据已不能满足企业发展的需求,企业很快又想要存储、检索并分析非结构化数据,如文档、图像、视频、电子邮件、社交媒体帖子以及来自机器传感器的原始数据。

现代化的数据仓库能够同时兼容结构化和非结构化数据。通过合并这两种数据类型并打破二者之间的孤岛,企业能够全面获取宝贵的洞察。


关键术语

了解什么是数据仓库,你需要能够将数据仓库与其相近的数据存储领域的相关术语加以区别。以下列出了一些重要术语。如需了解其他术语和常见问题,请浏览我们的术语表

 

数据仓库与数据库

数据库和数据仓库均为数据存储系统,但数据仓库和数据库的区别在于,数据库通常存储特定业务领域的数据,而数据仓库存储整个企业的当前数据和历史数据,并为商业智能和分析提供数据支持。数据仓库使用数据库服务器从企业数据库中提取数据,并提供数据建模、数据生命周期管理、数据源集成等附加功能。

 

数据仓库与数据湖

数据仓库和数据湖都能够存储大数据,但却是截然不同的存储系统。数据仓库主要存储根据特定用途进行格式化的数据,而数据湖则存储未经处理的原始数据,其数据用途尚不明确。数据仓库和数据湖通常相辅相成。例如,当需要使用数据湖中存储的原始数据来回答业务问题时,可以在数据仓库中对其进行提取、清理以及转换后用于分析。数据量、数据库性能和存储价格是帮助企业选择合适的存储解决方案的重要因素。


数据仓库与数据集市

数据集市和数据仓库的区别在于,数据集市是部门级数据存储系统,而数据仓库属于企业级数据存储系统,我们可以认为数据集市是数据仓库的一个子部分,是专门针对某一部门或业务线(如销售、营销或财务)划分出来的。有些数据集市也可能是为了单独的运营目的而创建。数据仓库是整个企业的数据存储中心,而数据集市则为特定用户群体提供相关数据。这能够简化数据访问,加快分析速度,帮助相关人员更好地控制所需的数据。一个数据仓库内通常部署了多个数据集市。


数据仓库的核心组件有哪些?

一个典型的数据仓库包含 4 个核心组件:中央数据库、ETL(提取、转换、加载)工具、元数据和访问工具。所有这些组件都是为了提高速度而设计,以便帮助你快速获取结果并即时分析数据。

中央数据库:数据库是数据仓库的基础。传统上,这些数据库都是在本地或云端运行的标准关系数据库。但是,由于大数据的出现,再加上企业需要了解真实的实时绩效,以及 RAM 的成本大幅下降,内存数据库得到迅速普及。

数据集成:企业可以通过各种数据集成方法从源系统中提取数据并进行修改,从而提高一致性,并快速进行分析。这些数据集成方法包括 ETL(提取、转换和加载)和 ELT、实时数据复制、批量加载处理、数据转换以及数据质量和丰富服务。

元数据:元数据是关于数据的数据,规定了数据仓库中数据集的来源、使用、价值和其他特征。业务元数据为数据添加背景信息,技术元数据则描述如何访问数据,包括数据的位置和结构。

数据仓库访问工具:访问工具支持用户与数据仓库中的数据进行交互。访问工具包括查询和报告工具、应用开发工具、数据挖掘工具以及联机分析处理 (OLAP) 工具。


数据仓库架构

过去,数据仓库在与业务数据流相匹配的功能层中运行。

数据仓库有哪些层级?典型的数据仓库分层可将数据仓库分为3 个单独的功能层。当今的现代化数据仓库将 OLTP 和 OLAP 整合在一个系统中。

数据层:通过 ETL 工具从数据源中提取数据,然后进行转换并加载到底层。底层包括数据库服务器、数据集市和数据湖。元数据就是在这一层创建,数据集成工具(比如数据虚拟化工具)用于对数据进行无缝整合和汇总。

语义层:在中间层,联机分析处理 (OLAP) 和联机事务处理 (OLTP) 服务器会重组数据,支持快速、复杂的分析查询。

分析层:顶层是前端客户层。这一层部署了数据仓库访问工具,支持用户与数据交互、创建仪表盘和报表、监控 KPI、挖掘和分析数据,以及构建应用等。分析层通常包含用于数据挖掘和新数据模型开发的工作台或沙箱区域。

数据仓库旨在为决策流程提供支持,主要由 IT 团队创建和维护。但在过去几年里,数据仓库不断发展,能够赋能业务用户,帮助他们访问数据并获取可据以采取行动的洞察,减少对 IT 部门的依赖。赋能业务用户的核心数据仓库功能包括:

语义层或业务层提供自然语言,支持所有人即时理解数据、定义数据模型中元素之间的关系,以及利用新的业务信息来丰富数据字段。

虚拟工作区支持团队将数据模型和连接引入统一的、安全的且受监管的位置,通过统一的通用空间和统一的通用数据集帮助同事之间更好地协作。

云技术为全球员工提供丰富的工具和功能,帮助他们轻松执行数据分析任务,从而进一步提高决策能力。他们可以连接新应用和新数据源,而无需大量 IT 支持。


云数据仓库的 7 大优势

基于云的数据仓库越来越受欢迎,这是有充分理由的。与传统的本地版本相比,这些现代化数据仓库具备诸多优势。以下是云数据仓库的 7 大优势:

部署速度快:借助云数据仓库,只需点击鼠标,即可购买无限的计算能力和数据存储空间,并在任何地方快速构建自己的数据仓库、数据集市和沙箱。

总体拥有成本 (TCO) 低:数据仓库即服务 (DVaaS) 定价模式支持你仅在需要时购买所需资源。你无需预测长期需求或全年多支付不必要的计算费用。你还可以省去昂贵的硬件、服务器机房以及维护人工等前期成本。存储定价与计算定价分离也有助于降低成本。

灵活性高:借助云数据仓库,你可以根据需要灵活扩大或缩小规模。云技术提供了虚拟化的高度分布式环境,能够通过扩大或缩小规模来灵活管理海量数据。

安全性高和灾难恢复力强: 在许多情况下,云数据仓库比本地数据仓库更能保证数据安全性且具备更强的加密能力。数据还会自动复制和备份,帮助你大大降低数据丢失的风险。

采用实时技术:云数据仓库基于内存数据库技术而构建,能够极大地提高数据处理速度,提供实时数据来增强即时情境感知能力。

引进新技术: 云数据仓库支持你轻松集成机器学习等新技术,为业务用户提供引导式体验和决策支持,比如,采取提问建议的形式。

赋能业务用户:云数据仓库在全球范围内平等地为员工提供多个数据源的统一数据视图以及丰富的工具和功能,帮助他们轻松执行数据分析任务,支持他们在没有 IT 介入的情况下连接新应用和新数据源。

数据仓库卓越实践

如果你需要构建新的数据仓库或向现有数据仓库添加新应用,我们提供久经验证的实践方法来帮助你实现目标,同时节省时间和金钱。有些实践专注于业务用例,有些实践则属于整个 IT 计划的一部分。以下清单将为你提供一个合适的切入点,你可以在与技术和服务合作伙伴合作的过程中获得更多卓越实践。


业务卓越实践

定义需要的信息。一旦掌握了初始需求,你就可以找到支持它们的数据源。通常,贸易组、客户和供应商会为你提供数据建议。

记录当前数据的位置、结构和质量。然后,你可以确定数据转换方面的数据差距和业务规则,满足数据仓库的需求。

组建团队。这包括执行发起人、管理人员以及使用和提供信息的人员。例如,确定完成工作所需的标准报表和 KPI。

确定数据仓库应用的优先级。选择一两个具有合理要求和丰富业务价值的试点项目。

选择一个强大的数据仓库技术合作伙伴。他们必须具备项目所需的实施服务和经验。确保选择的合作伙伴能够满足你的部署需求,包括云服务和本地部署选项。

制定完备的项目计划。与团队协作,制定切实可行的计划蓝图,为沟通和状态报告提供支持。


IT 卓越实践

监控绩效和安全性。虽然数据仓库中的信息很有价值,但这些信息只有易于访问,才能为企业提供价值。仔细监控系统使用情况,确保较高的绩效水平。

对数据质量标准、元数据、数据结构和数据治理进行维护。新的有用数据变得越来越寻常,但它们必须作为数据仓库的一部分进行统一管理。遵循数据清理、元数据定义和治理标准方面的程序。

提供灵活的架构。随着企业和业务部门使用量的增加,对数据集市和数据仓库的需求将变得越来越多样化。相较于某一款受限的产品,灵活的平台将为他们提供更有力的支持。

实现维护等流程的自动化。除了提高商业智能的价值以外,机器学习技术还可以实现数据仓库技术管理功能的自动化,从而提高速度并降低运营成本。

战略性地使用云技术。业务单元和部门有不同的部署需求。根据需要使用本地系统,并利用云数据仓库实现可扩展性、降低成本以及支持手机和平板电脑访问。


总结

现代化数据仓库以及越来越多的云数据仓库将成为母公司及其业务部门实现数字化转型的关键因素。这些数据仓库可以充分利用当前的业务系统,特别是将来自多个内部系统的数据与企业外部新的重要信息结合在一起。仪表盘、KPI、警报和报告功能可以满足高管层、管理层和员工的需求以及重要的客户和供应商需求。数据仓库还支持快速、复杂的数据挖掘和分析,并且不会损害其他业务系统的性能。

此外,这些数据仓库还支持小规模部署和按需扩展。无论是企业总部还是业务部门,都可以灵活地利用现代化数据仓库技术提升决策和利润水平。

电话咨询
邮件咨询
在线地图
QQ客服