IBM高级工程师谈数据湖管理

“在我看来,数据湖是一种参考架构,在保证信息管理秩序和信息安全的条件下,提供了获取数据的有效途径。”

何为数据湖

数据湖参考架构实际是指分析系统必备的技术能力,不依赖于任何其他技术。这种技术独立是非常重要的,现在有很多公司都投资了数据平台,希望能够将这些数据平台的技术纳入他们的解决方案。此外,技术是在不断进步的,选择哪种技术通常取决于待处理数据的数量、种类和产生速度。

分析系统的成功与否并不仅仅取决于它所采用的技术。数据湖参考架构明确了数据管理过程和各种定义的界限,确保技术之外的人力和业务系统能够展开高效合作,为数据应用创建自助的、安全的环境。

基于数据湖的数据管理

管理的重要性不言而喻。詹姆斯·瓦特发明蒸汽机的时候,同时发明了飞球式调速器管理系统,调节“引擎”平衡,保证工作效率。“引擎”可以是一个工作流程、一个机构组织,或者信息流。对于管理来说,“引擎”就是管理的目标对象, 明确管理对象是管理的重点。

根据不同公司数据管理对象的不同,数据湖的管理方式多种多样。举例来说,IT部门的数据湖“引擎”是各种技术。业务部门也可以将数据湖视为创新引擎的一部分,帮助他们创造新的数据价值。确定数据湖管理项目的第一步就是考虑数据湖不同用户群的需求,再考虑什么样的机制能够在不同需求之间达到兼顾平衡。

举例来说,向数据湖提供数据的系统所有者需要维护来自其系统的数据目录条目,然后他们就可以获得对该数据的质量和稳定性的分析,这有助于他们为用户提供更好的服务。

数据科学家在处理敏感数据时可能会受到各种限制,但是另一方面,他们可以得到丰富的数据目录,在需要使用特定数据集时,他们也能更容易获得批准。他们同时还能为该数据目录提供数据和内容。

他们贡献的内容越多,他们获取数据的过程就越容易。通过建立供应商需求和消费者需求之间的平衡,可以实现投入与产出的平衡,创造可持续的生态系统。

数据湖管理者

除了从用户角度设计管理项目之外,我们还需要确定由谁来控制数据湖,因为数据湖的控制者会影响数据湖的管理方式。如果是IT部门控制数据湖,那么正常的IT管理方式就能够满足数据湖管理的要求。

如果是业务部门管理数据湖,那么我们就需要通过数据服务和元数据,抽离出数据湖的运行机制,明确不同数据种类的区别,创建数据湖视图,来帮助业务部门理解和操作。然后,通过目录中的元数据将此视图映射到实际的数据和技术中,并且数据湖服务将使用元数据设置来驱动数据湖的运作。

一旦“引擎”确定之后,管理项目就可以进入正常的设计阶段:

设定数据湖元数据、格式和最佳实践标准;

检验、监测上述标准的执行;

采取合理方式处理数据异常情况、回答合规问题,并根据反馈进行项目调整。

管理平衡与价值

最后,我想再次强调反馈在实现平衡和价值方面的重要性。管理项目必须是动态的,它必须体现出其自身的价值。反馈机制的重要性也不容忽视,它会提醒项目管理者作出及时调整,应对随时发生的变化。

翻译:灯塔大数据

用户喜欢...

IBM持续2018年投入区块链

科技巨头IBM正积极努力在区块链领域保持领先地位,尤其是分布式账户技术.根据Juniper的企业调查,IBM在区块链技术供...


IBM解析2018年最流行的五项IoT趋势

2017年,物联网技术(loT)为传统行业带来了变革的风声和兴奋的议论。这是一场实质性的转变。我们已经能够看到,几乎所有的行业都在投资物联网,而且其中的佼佼者已经开始迅速采取行...


IBM拿出新型Power9处理器 针对AI和机器学习而开发

目前全球需要越来越大的计算能力来处理像人工智能和机器学习这样的资源密集型工作负载,IBM公司以其最新一代Power芯片 - Power9进入了竞争。该公司打算向第三方制造商和包括Google在内的云...


谁将是下一个云计算巨头:IBM还是Oracle?

谁都不能否认AWS云服务霸主的地位,媒体更多的目光都集中在第一梯队,而对于第二梯队两家云端转型Oracle和IBM公司...


美国家庭服务和食品加工厂利用IBM物联网服务,透过数据分析来提升服务质量

现今的物联网应用涵盖食衣住行,居家照护等,透过物联网技术,用户可以从电梯,生产线,停车场,洗衣设备等物品取得数...


IBM再次超越谷歌:研制出50量子位计算机原型机

近日,在美国电气和电子工程师协会(IEEE)的工业峰会上,IBM对外宣布,公司已经成功研发20位量子比特的量子计算机,...


亚马逊和IBM:谁将会是云服务的销售之王?

虽然云收入只是判定一家公司是否为最强大的云供应商的因素之一,但这些数字或多或少可以反映出风起云涌的云计...


IBM打造的新服务器架构之中的中流砥柱Xilinx FPGA

背景: FPGA(Filed Programmable Gate Arrays)在数据中心服务器中开辟道路,他们被用作加速器来促进单个服务器节点的计算能力,从而增加了整体服务器的计算效率。与此同时,数据中心的服务器...


打造安全的数字能源基础设施:英飞凌、IBM、GreenCom Networks和icentic通力合作

荷兰阿姆斯特丹和德国慕尼黑讯—数字化与分布式发电从根本上改变了目前的集中供应式能源系统。太阳能光伏电站...


符合IBM IoT Platform标准的设备被成功创建,与此同时还创建了一个API密钥

前言 本文将详细说明使用IBM Waston IoT Platform创建物联网设备的具体步骤。IBM Waston IoT Platform是IBM Bluemix云计算的一部分,是专门为物联网设计的系统之一,该平台支持HTTP和MQTT。学习IBM Bluemix和...


人工智能治疗癌症?IBM Watson 挨批:诊疗效果差、数据规定严格又昂贵

IBM 的超级计算机“华生”(Watson) 是人工智能 (AI) 界的明星,被认为潜力无穷。不过华生应用于医疗领域再吃败仗,似...


CA Technologies宣布为IBM z14提供支持交付可信任的系统

CA Technologies (NASDAQ:CA)今日宣布,CA关键的大型主机解决方案为IBM z14提供支持。CA的解决方案利用全新的z14平台,大大降...


IBM预测未来5年对人类产生最大影响的5大创新

IBM认为,随着人工智能(AI)的迅速进步、超级天文望远镜、智能传感器和医疗设备的发展,从医疗卫生、环境到对地球、宇宙的了解等各个方面都将受益。当然这些预测都是基于目前出现的...


IBM赋予AI的诗和远方:除了让Watson赚钱,更在教AI表现得像人脑

「AI For Business」,是昔日蓝色巨人IBM 对其人工智能的定位,清晰而坚定,即便其营收连续21个月下滑、遭到投资人的质疑,也未曾改变。 对于这家最善于把脉未来趋势的公司,在人工智能席...


IBM声称深度学习取得重大突破 大幅降低处理时间

IBM一直在努力促使计算机变得更智能化、更人性化。本周该公司宣布,已经开发出一种技术,可以大幅缩短处理海量数据并得出有用结论的时间。IBM使用的“深度学习”技术是人工智能(AI)...


PPT:美团点评数据平台融合实践 项目推进经验及技术突破

PPT来源ArchSummit全球架构师峰会2017 美团点评两家公司合并以来,经历了组织架构融合、线上业务融合、数据与基础设...