|
首页>相关研究方向>数据仓库> |
NCR Teradata数据仓库概述 |
|
Visited times , Welcome to Data Mining Forum & Data Mining Expert |
|
|
NCR Teradata数据仓库是全球企业级数据仓库、分析型应用和数据仓库服务领域的领导产品。Teradata数据仓库由NCR WorldMark系列数据仓库服务器和存储设备、Teradata并行关系数据库系统及相关的数据仓库工具组成。Teradata独有的并行架构具有高扩展性和高可用性,在大多数行业环境中灵活应用,为企业用户创造价值。
本文主要就Teradata的发展历史以及Teradata数据仓库产品的技术特点、主要功能和系统结构做简单的介绍。
一、Teradata的发展历史和现状
Teradata是 NCR 公司 (纽约证券交易所股票代码为 NCR) 的一个部分,是全球企业级数据仓库、分析型应用和数据仓库服务领域的领导厂商,专注于数据仓库服务器、RDBMS产品,以及相关的数据分析、数据挖掘产品的研发。
1979年7月13日,Teradata公司成立于美国加州的洛杉矶。Teradata象征着可以管理万亿字节(terabyte, TB)数据的能力。1988年,与NCR公司合作,开发新一代的数据库计算机。1991年9月,NCR被AT&T收购,12月,Teradata也被收购并入NCR,新公司名为AT&T GIS。1996年,AT&T GIS脱离AT&T,重新命名为NCR,成为独立,公开上市的公司。1997年,Teradata数据库因其可扩展的数据仓库解决方案,成为数据仓库的业界领导。1998年,开发出基于Windows NT的Teradata。2002年Teradata 推出数据仓库产品Teradata Warehouse 7.0。2003年推出客户关系管理系统Teradata CRM 5.0。 2004年Teradata 与世界领先的商用软件供应商SAP建立合作关系,开发了Teradata® Warehouse Miner 4.0数据挖掘软件,提供了一套功能强大、性能高并具有良好扩展性的数据挖掘系统。2005年,发布Teradata Warehouse 8.1简化了数据仓库的系统管理,提升了企业级智能集成性,并支持隐私和安全特性。 2006年9月宣布推出全新 Teradata Warehouse 8.2 版,这是一套包括硬件、软件以及专业咨询服务的全面套件,为前端操作、客户服务和策略计划提供实时商业智能,以支持策略决策和数以万计的日常运营事务。 数据挖掘交友
Teradata独有的并行架构具有高扩展性和高可用性,在大多数行业环境中灵活应用,为企业用户创造价值。迄今为止,Teradata已经在全球成功实施了2,000多个大型数据仓库项目,其中包括80%全球领先的电信公司、60%全球领先的航空公司、50%全球领先的零售业公司,以及60%全美最受尊敬的公司。他们之中有我们所熟悉的沃尔玛、宝洁、AT&T等。此外,Teradata还被 Intelligent Enterprise杂志(CMP Media出版)评选为全球最具影响力的技术供应商之一。
二、Teradata数据仓库的技术特点
Teradata巧妙地将开放并行数据库技术、可伸缩的硬件、经验丰富的数据仓库顾问、出色的商业工具和应用程序结合在一起。Teradata数据仓库主要运行在NCR WorldMark SMP硬件的Unix操作系统平台上;1998年,该公司也提供了基于Windows NT的Teradata。
由于有了可升级性、自我管理和并行技术,用户使用Teradata建立数据仓库是一个很简单的过程。Teradata数据库非凡的并行机制和服务器节点自动分配机制使它具有很好的可伸缩性,也使数据仓库可以适应呈指数增加的数据量和用户量。
1. 关系数据库
高性能的Teradata数据库是Teradata数据仓库的核心,是专为决策支持而设计的支持海量数据处理的大型关系数据库。通过在真正意义上的并行环境中的数据自动分布和工作量权衡,Teradata数据库能够轻松高效地处理复杂数据要求并简化对数据仓库环境的管理,在处理诸如全表扫描和多表连接时性能较差等问题时不会像一般的关系数据库那样有明显的性能下降。Teradata数据库使用简单,并且结合了真正的查询和工作量并行处理机制,能够达到在其他关系数据库管理系统中所不能达到的性能和吞吐量。Teradata数据库可扩展、高性能的决策支持引擎在业界无可比拟。 数据挖掘实验室
2. 高性能的海量并行处理
并行处理(Parallel Processing)是一种处理复杂问题的有效方法,它将一个任务分解成很多可以由多工作单元并行处理的子任务(sub-task)。传统的并行机制允许尽可能高效率处理特定的查询,然而同单个处理相反,它可能成为完成工作的瓶颈——拿到了是本因该顺序处理的更多的或者特定的数据。
Teradata与NCR硬件平台海量并行处理服务器(Massively Parallel Processing, MPP)结合,采用BYNET协议和查询优化等技术,实现真正意义上的并行机制,支持在大型数据库中吞吐量的快速增长,使Teradata用户在大量增加并行数据库时不必担心任何数据库操作可能产生的通信瓶颈,形成NCR独特的可扩展数据仓库(Scalable Data Warehouse, SDW)。
3. 可扩展性(Scalability)
Teradata独有的并行架构具有高扩展性和高可用性,可在大多数行业环境中灵活应用,保护用户前期投资,为企业用户创造价值。Teradata为了提高性能,采用了一些独特的专有技术,比如说采用自己专有的硬件,采用自己的BYNET协议,但这与他的可扩展性并不矛盾,相反,Teradata数据库并认为是业界具有最佳扩展能力,比如支持数据库大小从50GB扩展到1000TB以上的扩展、支持MPP架构下节点的扩展等等。传统的数据库在系统接近一个临界的容量时表现出明显的性能下降,而Teradata的线性扩展能力保证数据量、查询复杂程度、并发用户数、系统资源和查询性能的线性关系,也就是说,复杂的查询并不能引起系统资源的过分开销。 数据挖掘研究院
4. 企业数据的统一视图
Teradata 数据仓库将用户已有的数据整合到一个单一的知识库中,向客户提供数据的统一视图(the single view)。Teradata数据库一旦建立,就可以从多个客户端(比如企业中不同的部门)使用它,而不是为不同的主机复制数据库。这使得企业数据的一致性和可靠性得到了很好的保障,而且可以使用户不必过多考虑数据的物理分布和可用性等问题,更加专注于商业活动,经济有效地作出决策。
5. 易管理性
Teradata数据库具有良好的线性可扩展性,对数据仓库管理和调整方面的要求很少,可以使总的开销大大减少。Teradata数据库对于负载的管理、查询的调整和对工作及自由空间的管理都是自动进行的,而且不存在索引重组和对数据平衡的控制问题。通过Teradata Manager用户可以轻松了解数据仓库的运行信息,调整运行参数等。
三、Teradata数据仓库的主要功能模块
Teradata数据仓库结合了Teradata高性能的数据库技术,具备无与伦比的高性能数据库技术、全套数据查询及管理工具、强大的数据挖掘功能,以及世界一流的高可扩展服务器。 数据挖掘研究院
1.Teradata数据库(Teradata Database) Teradata特有的并行架构为Teradata独一无二的卓越性能提供了坚实的基础,它可以支持从报告、随机查询到数据挖掘等广泛的数据仓库功能。所有这些都可从一个单一的、整合了企业全面数据的数据仓库中获得。Teradata与NCR海量并行处理器相结合,是唯一提供与主机无缝集成的数据库。
2.Teradata数据挖掘器(Teradata Warehouse Miner) Teradata数据挖掘实验室产品,专为分析大规模数据而设计,工作在Teradata数据库中给企业和其他组织提供在所有数据中识别数据模式的能力而不是一些样本数据。
3.数据加载工具 数据装载工具允许从任何平台的任何数据源导入或导出数据,主要包括下面的一些具体工具。
并行转换(Teradata Parallel Transporter):允许并行多功能装载环境,通过使用单一的类SQL的脚本语言或开放的API,提供了从单一接口对数据源灵活的,可扩展的存取,从而简化了数据仓库的建立和维护。Teradata提供了一个完全并行的环境,可以把工作量负载分布到各个CPU上,消除数据装载过程中的瓶颈问题。异种数据存取,数据完整性检查,数据集成和批处理或实时数据装载一系列开放的API使得可以同第三方ETL工具或用户的程序集成 数据挖掘交友
初始表载入(Teradata FastLoad):用来将从通道或联网客户机的数据源上收集到的大量数据装入到Teradata数据库中的空表中。数据的分配,转换,移动,载入都是自动和并行的,所以效率很高。
数据导出(Teradata FastExport):可以快速地将数据从Teradata数据库中的表或视图导出到客户机系统,用来处理,产生报表或将数据装载到一个较小的数据库。为数据传送操作提供会话控制和数据处理规范。
数据维护(Teradata MultiLoad):一个用来建立和维护Teradata数据库的高性能工具。在快数据级上实现对大量数据的更新、插入、删除等操作。
持续数据加载(Teradata Tpump):用来连续地将数据从数据源Teradata表中,而不锁住相关的表,提供了几乎实时的数据来支持决策。在数据仓库维护与正常工作时间冲突的时候,仍然可以使用Tpump来插入、更新、追加和删除Teradata数据库中的数据。由于采用了行Hash锁技术,用户甚至可以在数据库更新的时候进行查询。
BTEQ-SQL Query Capability :一个通用的,基于命令的工具,用来和一个或多个数据库进行通信。提供了交互式的和批处理式的接口,可以提交SQL语句,导入导出数据和产生报表。
实时数据同步化:用来保证事务数据和Teradata数据库的同步。把数据从多个关系或非关系数据源复制到Teradata数据库中。一个数据源的数据改变,可以在瞬间传递到指定的目标。
ETL工具:提供了易于使用的图形用户界面,自动生成ETL脚本来支持Teradata的装载工具,实现从不同数据源抽取信息、转换或加载数据的功能。
4.Teradata专业服务(Teradata Services) Teradata凭借多年来为世界各大企业提供数据仓储服务的经验,形成了一组世界上最有经验的企业数据仓储顾问,他们熟悉各个行业的业务需求,可以满足其用户在建设数据仓库过程中的所有要求,从规划、设计、实施,到支持及维护服务。
四、Teradata数据仓库的系统结构
NCR Teradata在其发展过程中形成了自己独特的数据仓储方法和实施框架,这套理论被称为可扩展数据仓库(Scalable Data Warehouse, SDW),如【图一】所示Teradata数据仓库的体系结构分为数据装载、数据管理和信息展示三个部分,本部分只对各个功能作简单介绍,详细的描述可以参考第三部分功能模块的介绍。
不好意思,怎么加入word里面画的图图一 Teradata数据仓库系统结构图
1.数据装载 这部分的工作主要是将数据加载到数据仓库中,形成数据仓库的基础。
获取数据,包括确定数据源、数据结构、浏览和存取数据;
转换数据,将不同数据源的异构数据进行预处理和标准化,建立数据模型内实体之间的关系;
数据加载,将转换后的数据加载到数据仓库。
2.数据管理 负责数据的管理,将数据提供给企业不同部门,形成数据集市,为企业提供统一的数据视图。涉及的功能主要包括备份与恢复、数据安全管理、容量规划、性能管理。
3.信息访问 负责响应用户业务需求,以各种形式向用户提供信息。从数据仓库系统中取得数据、分析数据或者进行数据挖掘,并将结果以某种方式展现给用户,功能主要包括随机查询、管理报告、决策分析、OLAP分析和数据挖掘。
五、Teradata数据仓库与NCR MPP Worldmark海量并行处理服务器的完美结合
Teradata数据仓库的核心是Teradata数据库和海量并行处理服务器(Massively Parallel Processing, MPP)。海量并行处理服务器是NCR可扩展数据仓库的硬件平台,由多个对称多处理器(Symmetric Multi-Processing, SMP)节点组合而成。Teradata的并行机制允许将一个复杂的任务分解成一些简单的子任务并交由虚拟处理器(Virtual Processor, V-PROC)处理,虚拟处理器是并行处理器的基本单元,它又分为AMP和PE两种,而信息传递层(Message Passing Layer , MDL)则负责他们之间的通信,通信所使用的协议则是BYNET。Teradata数据仓库使得MPP对用户和管理员呈现为一个单一的系统。
不好意思,怎么加入word里面画的图
图二 Teradata并行机制
1. BYNET
BYNET(BanYan Network)是个由软件和硬件组合而成的连接层,允许多个节点上的多个虚拟处理器之间进行通信,为MPP系统提供了高性能的联网能力。BYNET使多个处理节点能够高速且低耦合地通信。通过使用通信开关技术,BYNET允许节点之间的点对点、多播和广播通信,从而支持在大型数据库中吞吐量的快速增长。这个技术使Teradata用户在大量增加并行数据库时不必担心任何数据库操作可能产生的通信瓶颈。
BYNET对于点对点通信是线性可扩展的。对于每个新加入系统的节点,每个BYNET都增加一个10MB(BYNET第二版是60MB)的额外带宽,因而提供了在系统增长时的可扩展性。可扩展性源于多个点对点线路可以同时被建立。随着一个节点的加入,更多的线路同时被建立。在多点传送和广播时,每个BYNET的带宽定为10MB/s(BYNET第二版是60MB)。 数据挖掘工具
2. 解析引擎
解析引擎(Parsing Engine, PE)由下列软件部件组成:对话控制,分析器,优化器和调度器,主要负责将用户提交的处理请求进行解析和优化,并进一步提交AMP进行处理。
(1)对话控制(session control) 一旦一个有效的对话建立,PE就是管理客户端应用程序和Teradata数据库对话的部件。实现对话控制的主要函数是logon和logoff。Logon为对话授权提出一个文本l类型的请求,并验证请求的合法性,最后返回一个yes或不回答。Logoff中止任何正在进行的活动并删除对话的相关信息。当连接到一个EBCDIC主机时,PE将输入数据转化为Teradata RDBMS内部能使用的8位ASCII码,这样就可以使输入的数据能够正确的使用。
(2)分析器(Parser) 当一个PE接收到一个来自客户端应用程序的SQL请求时,解释分解语句,检验SQL语法和语义。PE还要参考数据字典以保证所有的对象和行存在和用户有访问这些对象的权限。
(3)优化器(Optimizer) 优化器负责评估处理选项,选择最快的处理方法,制定返回结果集的最经济的计划。选定的最优查询方案被传给调度器,最后将被交给AMP执行。
(4)调度器(Dispatcher) 调度器(Dispatcher)控制查询步骤的执行过程,把步骤传递给消息传送层。它由执行控制部分和回答控制部分组成。执行控制部分从分析器接收步骤的定义,把步骤的定义传送给合适的AMP处理,在AMP处理步骤时接收状态报告,当AMP处理结束时把结果传递给回答控制。回答控制部分将结果返回给用户。调度器要确保下一个步骤被调度之前所有的AMP都已完成任务。
根据SQL请求的种类,步骤被发送给一个或多个AMP,甚至所有的AMP。
3. 模块访问处理器
模块访问处理器(Access Module Processor , AMP)控制所有与数据库有关的操作。每个AMP只负载磁盘阵列的一部分磁盘,数据的分配是利用HASH机制经过AMP均匀分布到各磁盘上的,因此,数据库中一个表的各条记录可能分布在不同的磁盘上。这个过程完全自动进行,而对一般商用OLTP DBMS来说,这个过程主要是由DBA控制的。各个AMP并行处理,互不相关,交易处理结果在信息传递层汇总后,直接返回给应用程序,不需要在某个结点进行进一步的处理,因此不存在单个结点的瓶颈问题。
AMP完成与产生结果集有关的诸如排序、合成、格式化、转换等所有物理操作,并通过这些操作响应由MPL传递过来的解析器/优化器步骤。为了响应一些特殊的请求,AMP可能向其他的AMP重新分发自己数据的拷贝。每个AMP上都有数据库管理器(Database Manager),正是它从发报器接受并助理执行步骤。为了做到这些,管理器要具有给数据库和表加锁,创建、修改或者删除表,插入、删除、修改表中数据,以及从定义和表获取信息的能力。数据库管理器最终向发报器返回响应信息。 数据挖掘工具
4. 消息传递层
消息传递层(Message Passing Layer , MPL)由Teradata并行数据库扩展(Parallel Database Extensions, PDE)和BYNET组合而成,负责处理Teradata数据库内部的消息传递(包括所有PE和AMP的通信),包括将PE解析优化之后的请求传递给AMP、将应答集整合后送回PE等等。
根据调度请求的内容,通信分为如下:
² 广播-消息发送给系统中所有的AMP和PE。
² 多播-消息发送给一组AMP
² 点对点-消息发送给系统中一个指定的AMP或PE
正是MPL技术使Teradata数据库的并行机制成为可能。
5. 并行机制
并行机制(parallelism)是Teradata数据库的核心,在Teradata数据仓储过程中并行机制无处不在。并行机制使管理海量数据成为可能——每个PE可以并行处理120个用户对话;每个对话可以同时处理多个请求;每个AMP可以同时执行多达80个任务。除此之外,优化器可以引导AMP并行处理一定的步骤。还有一个称为并行CLI的特征,只需设置一些环境变量,就可以达到客户端应用程序的并行,对多对话的应用程序特别有用。
由此看了,Teradata数据仓库的一大特点是与其硬件的紧密结合,这样能够充分发挥其并行处理以及可扩展的优越性,使得各项性能都超越它的竞争对手。虽然扩展性可以保护用户投资,但是那是在用户长期使用Teradata产品的前提下,一旦用户不使用Teradata,用户损失的不仅仅是软件——还有昂贵的服务器。这使得用户在选择Teradata时十分谨慎,小型用户更是敬而远之。
六、总结
本文简单描述了Teradata数据仓库的功能和实现机理,对Teradata并行处理机制做了浅显的讨论。但是,应该承认,并没有很好地理解一些细节问题。
参考资料:
[1] Teradata Warehouse Technical Overview, 2006.4
[2] Teradata Factory-NCR Teradata TrainingCourse # 9038 Revision 7.0.1, 2005.7
[3] A Single View of Integrated Data, 2006.1
[4] Teradata Load and Unload Utilities, 2006.8
[5] Teradata Manager, 2005.8
[6] Teradata Analyst Pack, 2004.8 数据挖掘交友
以上参考资料均来自Teradata网站http://www.teradata.com。
|
|
|
|
|
[数据挖掘专家]
[数据挖掘研究院]
[数据挖掘论坛]
[数据挖掘实验室]
|
上一篇:某商店数据仓库的原型分析和设计
下一篇:下钻:使用商务智能BI工具让Valero Energy公司获得更多
|
|
|
|