您好、欢迎来到现金彩票网!
当前位置:秒速快三 > 数据集市 >

数据集市入门

发布时间:2019-06-03 22:22 来源:未知 编辑:admin

  快速发展的、充满竞争的商业世界对于及时、准确的信息有着永无止境的需求,一些 IT 专家对此认为其必然结果就是创建数据集市。其他专家却质疑用户和客户所要付出的工作和成本。毕竟,难道不能直接从遗留系统和在线事务处理(On Line Transaction Processing,OLTP)系统通过特定的报表获得相同的信息吗?在 EDS 的商业智能小组里,我们就经常被问到这一问题。经验让我们有许多机会使我们的同行和客户了解这项有用技术的价值。这篇文章讨论了商业智能的基础,以及我们为何和如何建议构建数据集市解决方案。我们共享了从构建数据集市的经验中获得的关键教训,并且希望本文能帮助其他从事实现数据集市的人。

  那么,一个组织为何要构建数据集市呢?虽然 OLTP 和遗留系统拥有宝贵的信息,但是可能难以从这些系统中提取有意义的信息并且速度也较慢。而且这些系统虽然一般可支持预先定义操作的报表,但却经常无法支持一个组织对于历史的、联合的、“智能的”或易于访问的信息的需求。因为数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了不一致的和无效的值,使得难于分析。

  例如,一个索赔支付系统为了尽可能快地支付或拒绝索赔,通常要处理许多日常或实时的事务。大多数情况下,这些系统都易于查看单一索赔以及通过系统来加速其处理。然而,这些系统一般没有提供查看组合索赔数据的工具,来用以响应即席(ad hoc)或基于业务的问题,也没有提供工具,用以联合查看索赔信息和在索赔系统外部的、与之相关的系统中所包含的信息(如策略所有者或服务提供者的数据)。

  数据集市将合并不同系统的数据源来满足业务信息需求。若能有效地得以实现,数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市将:

  支持访问非易变(nonvolatile)的业务信息。(非易变的信息是以预定的时间间隔进行更新的,并且不受 OLTP 系统进行中的更新的影响。)

  调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。

  通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义,从而提供净化的(cleansed)数据。

  为即席分析和预定义报表提供合理的查询响应时间(不同于 OLTP 系统中所需的调优需求)。

  通过提供对于遗留系统和 OLTP 应用程序的选择来减少对这些应用程序的要求,以获得更多所需信息。

  数据集市是向组织提交的商业智能总体计划中的一个部分。Gartner Group 提出“商业智能是将数据转换为信息,然后通过发现又将该信息转换为知识的过程”。商业智能的范围包括信息体系结构、访问和分析数据的方法、基础设施以及组织将数据变为智能的能力和过程(图 1)。信息体系结构存储致力于向组织传送信息的数据,其中包括元数据。元数据是有关于逻辑和物理模型以及数据字典等数据的信息。在该图中, information architecture中的数据与驻留在遗留系统和 OLTP 系统中的数据是分开的。

  操作数据存储(Operational Data Store,ODS)集成了当前的而非历史的明细操作数据,以支持操作环境和立即做出的决策。不是所有组织都有 ODS,但是如果他们有的话,ODS 可被当作“记录系统”,这表示它是权威信息的来源。遗留系统和 OLTP 系统将实时地、每小时或每天填充 ODS。数据仓库是组织信息体系结构的组成部分,它包含了历史的、明细的和概要的集成信息来支持决策和填充数据集市。数据仓库中的数据是非易变的,这意味着将周期性地进行更新和刷新并且被用户群体所理解。 数据集市(Data marts)是为满足已定义的用户组或业务领域(Business Area)对于特定业务信息的需求而创建的。它们比数据仓库更小且更关注在数据中构建复杂的业务规则来支持功能强大的分析。

  Gartner Group 已经将 DB2 与 Teradata 和 Oracle 一起放在了数据仓库 DBMS 幻方图(magic quadrant)的右上角中。因为 DB2 是可扩展的并且可以处理超大型的数据库,所以它既适合于整个信息体系结构,又适合于纯粹的数据集市。DB2 还提供了精制的优化器以管理复杂查询。DB2 中包含的自动摘要表(Automatic Summary Table,AST)将在适当的时候自动访问预先摘要的总数,而无需每次都进行计算,从而提高了性能。

  DB2 Relational Connect 提供了对于查询访问分布式异构数据服务器的只读支持。因此,它将为用户和应用程序提供优化的、联合的数据视图,而无需考虑这些数据是存储于本地 DB2、远程 DB2 中,还是完全在另一数据库系统中。

  在过去的 15 年中,Ralph Kimball 和 Bill Inmon 一直是商业智能领域中的革新者,开发并测试了新的技术和体系结构。他们都撰写了关于数据仓库的多本书籍,这些书也经常被参考。Kimball 和 Inmon 都同意组织需要一个与遗留系统和 OLTP 系统分开的数据仓库,以捕获组织的有关信息并且使之可用。他们也同意数据仓库中的数据应该是净化的、一致的,并且不受到其来源的遗留系统和 OLTP 系统设计的牵制。在开始第一个数据集市之前,他们还同意用针对整个体系结构的思想重复构建数据仓库。到这里,他们的意见就发生了分歧。

  如图 2 中所示,Bill Inmon 将数据仓库定义为“一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合”(Building the data warehouse,第 2 版,第 33 页)。Inmon 通过“面向主题”表示应该围绕主题来组织数据仓库中的数据,例如客户、供应商、产品等等。每个主题区域仅仅包含该主题相关的信息。数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,应该创建以数据仓库为来源的数据集市。换言之,某个特定数据集市中的所有数据都应该来自于面向主题的数据存储。 Inmon 的方法包含了更多上述工作而减少了对于信息的初始访问。但他认为这个集中式的体系结构持续下去将提供更强的一致性和灵活性,并且从长远来看将真正节省资源和工作。

  Ralph Kimball 说“数据仓库仅仅是构成它的数据集市的联合”(Figure 3,The Data Warehouse Lifecycle Toolkit,第 27 页)。他认为“可以通过一系列维数相同的数据集市递增地构建数据仓库”。每个数据集市将联合多个数据源来满足特定的业务需求。通过使用“一致的”维,能够共同看到不同数据集市中的信息,这表示它们拥有公共定义的元素。 Kimball 的方法将提供集成的数据来回答组织迫切的业务问题并且要快于 Inmon 的方法。Inmon 的方法是只有在构建几个单主题区域之后,集中式的数据仓库才创建数据集市。而 Kimball 认为该方法缺乏灵活性并且在现在的商业环境中所花时间太长。

http://harpoolbrothers.com/shujujishi/152.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有