像公有云数据湖和 Delta Lake 这样的平台指出了一个中央数据枢纽的趋势,用来支持决策和AI驱动的自动化决策。
数据仓库是否再次加入这股浪潮呢,或者会逐渐消亡?
如果你不清楚这个问题的答案也很正常。数据仓库在一方面目前仍处于热门阶段。笔者作为一个长期的行业观察者,看到了在不断创新和创业活动浪潮下行业的快速发展。
这种趋势基本上始于十年前标准设备进入数据仓库主流,然后随着市场向新一代云数仓转移逐渐获得了新动力。在过去几年中,一个云数仓供应商(Snowflake) 在市场上获得了非常多的支持。
但在另一方面,数据仓库也不断被行业中的新事物所冲击,例如大数据、机器学习和人工智能。这种趋势造成了数据仓库在企业IT优先级下降的印象,但事实上大多数组织至少有一个或者多个数据仓库服务于各种下游应用程序。
数据仓库一直作为企业核心工作服务,是几年前我觉得数据仓库远未消亡的原因,这也可能解释了为什么其他观察者认为他们必须重新定义数据仓库的概念,以使其在数据湖和云计算时代保持相关性。
许多人认为“数据湖”正在迅速发展成为下一代数据仓库。对于那些不熟悉这个概念的人来说,数据湖是多结构数据的系统或存储库,它们以原始格式和模式存储,通常作为对象“blob”或文件存储。
数据湖通常用作所有企业数据的单个存储,包括源系统数据的原始副本和用于生成报告,可视化,数据分析和机器学习等任务的转换数据。它们包含分布式文件或对象存储,机器学习模型库以及高度并行化的处理和存储资源集群。并且,数据库通常在读取时使用模式,并使用统计模型从中提取有意义的相关性和模式,而不是对它们存储的对象强制执行通用模式和语义。
这些都与Inmon和Kimball核心概念不一致,这些概念为大多数专业人员的数据仓库方法提供了信息。从根本上说,一个数据仓库主要用来聚合,保留和管理官方认可的“单一版本的真实”数据记录。此概念与所管理数据的特定应用程序域以及使用它的特定用例无关。
如果你怀疑我在那个分数上说的话,请看看Bill Inmon对数据仓库的定义以及Inmon和Ralph Kimball框架的比较。数据仓库通常都是关于数据驱动的决策支持,这使得它可以很好地扩展到AI驱动的推理的新世界。
在过去的一年中,一些备受瞩目的行业公告标志着数据仓库角色的转变。尽管决策支持(也称为商业智能,报告和在线分析处理)仍然是大多数数据仓库的核心用例,但我们看到了其向决策自动化的稳步转变。换句话说,数据仓库现在正支持着数据科学管道,为数据驱动的推理构建了机器学习应用程序。
新一代数据仓库实际上是数据湖,对那些用于构建和训练机器学习模型的清洗,整合和验证的数据进行管理。例如,去年秋天在Amazon re:Invent 大会上,亚马逊网络服务公布了AWS Lake Formation。这种新的托管服务的明确目的是简化和加速安全数据湖的设置。然而,AWS Lake Formation 拥有云数据仓库的所有特点,尽管AWS并没有这样称呼它,实际上已经提供了一个面向决策支持应用程序的经典数据仓库。
AWS Lake Formation的架构和功能类似于数据仓库。实际上,AWS以这种方式来描述它:“数据湖是一个集中的,策划的和安全的存储库,它以原始形式存储所有数据并为分析做好准备。通过数据湖,您可以分解数据孤岛并组合不同类型的分析,以获商业洞察力并指导更好的业务决策。“
另一个例子是 Databricks 最近宣布的 Delta Lake开源项目。 Delta Lake的明确目的(现在可以在Apache 2.0许可下使用)类似于AWS Lake格式:通过对数据湖中维护的数据集的聚合,清洗,管理和治理,以支持机器学习。
Delta Lake 位于现有的内部部署或云数据存储平台之上,可以从Apache Spark访问,例如HDFS,Amazon S3或Microsoft Azure blob存储。 Delta Lake将数据存储在Parquet中,以提供Databricks所称的“事务存储层”.Parquet是一种开源的列式存储格式,无论数据处理框架的选择如何,都可用于Hadoop生态系统中的任何项目。它通过乐观并发可串行化,快照隔离,数据版本控制,回滚和模式实施来支持ACID事务。
Delta Lake和AWS Lake Formation之间的一个关键区别是 Delta Lake 处理该管道中的批量和流数据。另一个是Delta Lake支持所有数据的ACID事务,允许数百个应用程序同时进行多次写入和读取。此外,开发人员可以访问每个Delta Lake的早期版本,以进行审计,回滚或重现其MLFlow机器学习实验的结果。
在最广泛的层面上,Delta Lake似乎与使用最广泛的开源数据仓库项目 Apache Hive 竞争,尽管 Hive 完全依赖基于 HDFS 的存储,并且直到最近才解决对ACID交易的支持。Hive 3一年前被宣布终于为基于Hadoop的数据仓库提供ACID支持。 Hive 3使用delta文件为事务CRUD(创建读取更新删除)表提供操作的原子性和快照隔离。
这些最近的行业公告 - AWS Lake Formation,Delta Lake和Hive 3预测是数据湖成为所有决策支持和决策自动化应用以及所有交易数据应用的治理中心的日子。为了加速这些趋势,Hive 3和Delta Lake等开源项目需要在供应商和用户之间获得更广泛的吸引力。
“数据仓库”这一术语可能主要指的是商业智能结构化数据的受管理的多域存储。但是,底层数据平台将继续发展,为基于云的人工智能管道提供核心数据治理基础。
AI而非BI正在推动企业数据仓库的发展。
作者:EMR
第一代数据库系统是20世纪70年代研制的层次和网状数据库系统。20世纪60年代末70年代初,美国数据库系统语言协会CODASYL下属的数据库任务组DBTG提出了DBTG报告。DBTG报告确定并建立了网状数据库系统的许多概念、方法和技术,是网状数据库的典型代表。
第二代数据库系统是关系数据库系统。1970年IBM公司的San Jose研究试验室的研究员Edgar F. Codd发表了题为《大型共享数据库数据的关系模型》的论文,提出了关系数据模型,开创了关系数据库方法和关系数据库理论,为关系数据库技术奠定了理论基础。
第三代数据库系统是数据管理数据库系统。1990年高级DBMS功能委员会发表了《第三代数据库系统宣言》,提出了第三代数据库管理系统应具有的三个基本特征:应支持数据管理、对象管理和知识管理。必须保持或继承第二代数据库系统的技术。必须对其他系统开放。
扩展资料:
20世纪70年代是关系数据库理论研究和原型开发的时代,其中以IBM公司的San Jose研究试验室开发的System R和Berkeley大学研制的Ingres为典型代表。大量的理论成果和实践经验终于使关系数据库从实验室走向了社会,因此,人们把20世纪70年代称为数据库时代。
20世纪80年代几乎所有新开发的系统均是关系型的,其中涌现出了许多性能优良的商品化关系数据库管理系统,如DB2、Ingres、Oracle、Informix等。这些商用数据库系统的应用使数据库技术日益广泛地应用到企业管理、情报检索、辅助决策等方面,成为实现和优化信息系统的基本技术。
数据库发展呈现三个主要特征数据库(Databases,简称DB)是指长期保存在计算机的存储设备上、并按照某种模型组织起来的、可以被各种用户或应用共享的数据的集合。数据库管理系统(Database Management Systems,简称DBMS)是指提供各种数据管理服务的计算机软件系统,这种服务包括数据对象定义、数据存储与备份、数据访问与更新、数据统计与分析、数据安全保护、数据库运行管理以及数据库建立和维护等。
由于企业信息化的目的就是要以现代信息技术为手段,对伴随着企业生产和经营过程而产生的数据进行收集、加工、管理和利用,以改善企业生产经营的整体效率,增强企业的竞争力。所以,数据库是企业信息化不可缺少的工具,是绝大部分企业信息系统的核心。
纵观数据库发展,三大数据库巨头公司纷纷推出其最新产品,数据库市场竞争日益加剧。从最新的IDC报告显示,在关系数据库管理系统(RDBMS)软件市场上,Oracle继续领先对手IBM和微软,但是微软在2006年取得了更快的销售增长率……
根据对数据库发展的技术趋势不难看出,整个数据库发展呈现出了三个主要特征:
(1)、支持XML数据格式
IBM公司在它新推出的DB2 9版本中,直接把对XML的支持作为其新产品的最大卖点,号称是业内第一个同时支持关系型数据和XML数据的混合数据库,无需重新定义XML数据的格式,或将其置于数据库大型对象的前提下,IBM DB2 9允许用户无缝管理普通关系数据和纯XML数据。
对于传统关系型数据与层次型数据的混合应用已经成为了新一代数据库产品所不可或缺的特点。除了IBM,Oracle和微软也同时宣传了它们的产品也可以实现高性能XML存储与查询,使现有应用更好的与XML共存。
(2)、商业智能成重点
为应对日益加剧的商业竞争,企业不断增加内部IT及信息系统,使企业的商业数据成几何数量级不断递增,如何能够从这些海量数据中获取更多的信息,以便分析决策将数据转化为商业价值,就成为目前数据库厂商关注的焦点。各数据库厂商在新推出的产品中,纷纷表示自己的产品在商业智能方面有很大提高。如:微软最新版SQL Server 2005就集成了完整的商业智能套件,包括数据仓库、数据分析、ETL工具、报表及数据挖掘等,并有针对性的做了一些优化。如何更好的支持商业智能将是未来数据库产品发展的主要趋势之一。
(3)、SOA架构支持
SOA已经成为目前IT业内的一个大的发展趋势,最初IBM和BEA是该理念的主要推动者,后来有越来越多的企业加入,开始宣称支持SOA,其中包括Oracle,而微软开始并不是非常赞同SOA的,但是,随着时间的发展,目前国内主流的数据库厂商都开始宣称他们的产品是完全支持SOA架构的,包括微软的SQL Server 2005,从微软态度的转变可以看出,未来IT业的发展与融合,SOA正在成长为一个主流的趋势。
数据库管理系统已经成为软件产业的重要组成部分,是信息化过程中最重要的技术基础之一。我国要振兴软件产业,就必须发展自己的数据库软件产业。这已经获得了广泛的共识,目前要解决的关键问题是如何能够“做得出、用得上、卖得掉”。我们认为,数据库软件的发展将仍然是关系系统内核基础上进行扩展的技术路线。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)