这些年来,数据仓库(data warehouse)的发展异常迅猛。国际数据公司(IDC)最近的一次调研显示,40%左右受访企业的数据容量每年都在以50%的速度递增,还有18% 的企业每过一年数据仓库容量就会翻上一番。为了应付这样的扩容速度,必须谨慎地对底层数据库进行调谐,但即便是这样,在如今的许多大中型企业里,升级旧有 数据仓库的费用也高达六七位数,有时甚至会达到八位数。
在这种形势下,数据仓库应用设备(data warehouse appliance)和列式存储数据库(column-store database)应运而生。最近几年,由于风险投资商将重金押在了相关的新兴公司身上,这两种产品都得到了飞速的发展。这样的赌注可以说是万无一失的, 因为现在各大企业都非常希望能对所有的现有数据进行更加深入的分析。
“沃尔玛集团(Wal-Mart)、史泰博公司(Staples)以及亚马逊网站(Amazon.com)之所以如此成功,原因之一就是他们对 手上的数据进行了仔细的分析,对整个组织的运作情况了如指掌。”新兴设备厂商Dataupia公司的首席执行官(CEO)弗斯特·辛肖(Foster Hinshaw)如是说。辛肖同时也是数据仓库应用设备市场领先厂商Netezza公司的创始人之一,他指出,企业如果想要全面掌握自身在新店选址、产品 营销以及客户服务等方面的需求,就必须深入挖掘现有数据中蕴含的信息。由于拥有查询快捷、部署简便等优势,再加上1TB容量的价格低至1万美元,此类应用 设备已经从传统的大型数据仓库厂商手中掠走了不少业务。难怪现在国际商业机器公司(IBM)和Teradata公司都争相推出了自己的应用设备,而甲骨文 公司(Oracle)也为第三方硬件优化了参考配置。然而,对于列式数据库带来的市场威胁,这些大型厂商们目前还没有拿出应对的办法。在面临复杂的分析查 询时,列式数据库可以提供业界最高效的查询性能。 数据挖掘交友
照这么说,似乎数据仓库的全新时代即将来临了?且慢下结论。应用设备和列式数据库并非在任何情况下都能完美地取代传统的企业数据仓库。事实上, 这些替代性设备常常被用来作为数据集市(data mart),以便从企业数据仓库中卸载数据密集型应用程序,这样一来就不必再替换整个主数据仓库了,至少也可以将替换工作推迟一段时间。不过,不管你是在 寻找分析数据集市还是新的数据仓库,除了诱人的价格、升级空间以及产品性能外,你还应当关注其他方面的问题。 数据挖掘交友
按列查询
数据挖掘研究院
与行式存储的传统数据库不同,列式数据库采用的是垂直分区。例如,在客户数据库中,行式数据库的查询会检索每一份客户档案,而列式数据库则可以 只对选定的列进行查询。对于联机事务处理(OLTP)来说,行式数据库最合适,因为每进行一笔新的客户交易都要写入大量的数据。但是谈到联机分析处理 (OLAP),那理想的选择就得是列式数据库了,因为这需要针对特定的数据特征进行大量的读取。如果你按地区和产品来查询销售情况,那查询任务就只会针对 地区和产品库存量这两列数据来进行,而不会通盘检索名称、地址以及其他无关的数据特征。 数据挖掘论坛
列式数据库的另一优势,是它能够采用最优化的数据压缩——至少能实现10:1的压缩比——因为每列中的数据都是一致的。只要你不根据太多的数据特征来执行查询任务,那你从列式数据库中得到的数据量就肯定会少于传统的数据库,如此一来查询的速度当然也就更快了。 数据挖掘论坛
对于许多应用程序而言,列式数据库都非常理想。为了处理账单以及其他历史方面的原因,电信公司在自己的企业数据仓库中往往存储了几十亿份呼叫数 据档案。在这种情况下,要想进行市场营销分析,就可以借助数据集市来提取所需的相关数据。利用类似的方式,大型零售商便能挖掘出交叉销售和追加销售的机 会,银行则可以发现欺诈活动,而保险公司也能研究死亡率的变化趋势。