数据仓库的新生

这些年来,数据仓库(data warehouse)的发展异常迅猛。国际数据公司(IDC)最近的一次调研显示,40%左右受访企业的数据容量每年都在以50%的速度递增,还有18% 的企业每过一年数据仓库容量就会翻上一番。为了应付这样的扩容速度,必须谨慎地对底层数据库进行调谐,但即便是这样,在如今的许多大中型企业里,升级旧有 数据仓库的费用也高达六七位数,有时甚至会达到八位数。

  在这种形势下,数据仓库应用设备(data warehouse appliance)和列式存储数据库(column-store database)应运而生。最近几年,由于风险投资商将重金押在了相关的新兴公司身上,这两种产品都得到了飞速的发展。这样的赌注可以说是万无一失的, 因为现在各大企业都非常希望能对所有的现有数据进行更加深入的分析。

  “沃尔玛集团(Wal-Mart)、史泰博公司(Staples)以及亚马逊网站(Amazon.com)之所以如此成功,原因之一就是他们对 手上的数据进行了仔细的分析,对整个组织的运作情况了如指掌。”新兴设备厂商Dataupia公司的首席执行官(CEO)弗斯特·辛肖(Foster Hinshaw)如是说。辛肖同时也是数据仓库应用设备市场领先厂商Netezza公司的创始人之一,他指出,企业如果想要全面掌握自身在新店选址、产品 营销以及客户服务等方面的需求,就必须深入挖掘现有数据中蕴含的信息。由于拥有查询快捷、部署简便等优势,再加上1TB容量的价格低至1万美元,此类应用 设备已经从传统的大型数据仓库厂商手中掠走了不少业务。难怪现在国际商业机器公司(IBM)和Teradata公司都争相推出了自己的应用设备,而甲骨文 公司(Oracle)也为第三方硬件优化了参考配置。然而,对于列式数据库带来的市场威胁,这些大型厂商们目前还没有拿出应对的办法。在面临复杂的分析查 询时,列式数据库可以提供业界最高效的查询性能。 数据挖掘交友

  照这么说,似乎数据仓库的全新时代即将来临了?且慢下结论。应用设备和列式数据库并非在任何情况下都能完美地取代传统的企业数据仓库。事实上, 这些替代性设备常常被用来作为数据集市(data mart),以便从企业数据仓库中卸载数据密集型应用程序,这样一来就不必再替换整个主数据仓库了,至少也可以将替换工作推迟一段时间。不过,不管你是在 寻找分析数据集市还是新的数据仓库,除了诱人的价格、升级空间以及产品性能外,你还应当关注其他方面的问题。 数据挖掘交友

  按列查询

数据挖掘研究院

  与行式存储的传统数据库不同,列式数据库采用的是垂直分区。例如,在客户数据库中,行式数据库的查询会检索每一份客户档案,而列式数据库则可以 只对选定的列进行查询。对于联机事务处理(OLTP)来说,行式数据库最合适,因为每进行一笔新的客户交易都要写入大量的数据。但是谈到联机分析处理 (OLAP),那理想的选择就得是列式数据库了,因为这需要针对特定的数据特征进行大量的读取。如果你按地区和产品来查询销售情况,那查询任务就只会针对 地区和产品库存量这两列数据来进行,而不会通盘检索名称、地址以及其他无关的数据特征。 数据挖掘论坛

  列式数据库的另一优势,是它能够采用最优化的数据压缩——至少能实现10:1的压缩比——因为每列中的数据都是一致的。只要你不根据太多的数据特征来执行查询任务,那你从列式数据库中得到的数据量就肯定会少于传统的数据库,如此一来查询的速度当然也就更快了。 数据挖掘论坛

  对于许多应用程序而言,列式数据库都非常理想。为了处理账单以及其他历史方面的原因,电信公司在自己的企业数据仓库中往往存储了几十亿份呼叫数 据档案。在这种情况下,要想进行市场营销分析,就可以借助数据集市来提取所需的相关数据。利用类似的方式,大型零售商便能挖掘出交叉销售和追加销售的机 会,银行则可以发现欺诈活动,而保险公司也能研究死亡率的变化趋势。

上一页12 3 下一页
[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:数据仓库建设的成功经验
下一篇: 数据仓库之路,保险业应如何走
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • SQL与最短路径算法
  • 求一个数据库备份方案
  • 某商店数据仓库的原型分析和设计
  • 移动通信数据仓库联合实验室在北京成立
  • 数据仓库的规划构建策略
  • NCR Teradata数据仓库概述
  • 各位进来帮忙参考一下关于个人发展方向问题
  • 关于数据仓库的数据模型
  • 第五届机器学习及其应用研讨会日程表
  • 数据库归来——下一代数据库扫描简介
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • 处理海量数据的经验和技巧
  • 数据仓库的新生
  • 什么是ETL
  • Data Warehousing for the Midsize Organiz
  • Data warehouse management strategies for
  • 第五届机器学习及其应用研讨会日程表
  • SQL Data Warehouse Analyst
  • Edge appliances and the evolution of dat
  • 动态数据仓库让BI走向一线
  • The OLAP Report
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静