数据湖辩论质疑专家

塔玛拉,塔玛拉,塔玛拉我们已经认识很久了,我不敢相信我们再次进行同样的对话!技术并不能解决所有数据问题。我明白了和数据湖的概念是热门话题。然而,仅仅因为它们在技术世界中处于趋势并不意味着它们将解决关键的业务问题,例如充分利用组织的数据。话虽这么说,我有几个关于定义和论点的问题要问你。 安妮布夫1. 您将数据定义为“由计算机生成或存储的可以数字传输或处理的信息”。鉴于数据不是信息,直到从特定业务上下文或目的中的处理中派生出意义,那么存储数据的存储库(如您定义的数据湖)如何对没有目的的组织至关重要? 更多阅读 图像 数据湖辩论:结论(向滚石乐队致歉) 数据湖辩论:Pro 提供最终反驳和总结 数据湖辩论:否定的最终结论 数据湖辩论:专业人士首次反驳 数据湖辩论玛拉沉闷安妮,安妮,安妮,一如既往,你戴着玫瑰色的数据管理眼镜,看起来棒极了!但这不再是您祖父的牛仔竞技表演,是时候考虑采用新技术了。

好的您不喜欢我在

数据定义中使用术语信息。这还算公平。这很混乱,而且有点循环。我的观点是数据湖中的数据本质上是数字的。我们能同意吗? 至于你的问题,你认为我是在建议一个组织创建一个大黑盒子,在上面贴上“数据湖”的标签,然后开始用任何和所有数据填充它——没有任何背景或目的?听起来很疯狂(有些人这么说),但这不是我的建议。我要说的是,既然我们拥有构建合适数据湖的技术,是时候考虑一​​下了——不是以“构建它,他们 数据库 就会来”的随意方式,而是以一种战略性、有条不紊的方式。 进入数据湖的所有数据是否都有上下文和目的?绝对不。尽管这是理想的,但这并不现实。当数据被处理并向下游推/拉到其他存储库和应用程序时,需要添加上下文和目的。 安妮布夫2. 正如您在第一个论点中所述,仅仅因为您可以在数据湖中捕获和存储“任何和所有数据”,并不意味着您应该这样做。治理并不是大数据环境所固有的。数据是中性的。

数据库

你用它做什么不是

如果收集和发现不受监管,则会为组织带来巨大风险。你如何解决这个问题? 塔玛拉沉闷是的,我完全同意:仅仅因为你可以并不意味着你应该。如果我们回顾这些年,我们已经学会了接受:仅仅因为你想(存储和处理任何和所有数据)并不意味着你可以(由于技术限制、成本等)。 现在我们可以——借助像 Hadoop 这样的大数据技术——问题现在转移到“我们应该吗?” 有人说:“当然!全部抓起来丢进数据湖里!” 而其他 DW 引线 人则相信,抓住一切只会导致大而臭的数据沼泽。对于组织而言,正确答案介于这两个极端之间。 但请不要误会:数据湖不是一种地理疗法。如果您的组织已经在不治理和管理当前系统中的数据方面做得很糟糕,那么将任何数据(现有的或新的)移动到数据湖并不能解决这个核心缺点。您的不良数据和数据实践将跟随您。 安妮布夫3. 在您改变游戏规则的价值主张中,您争辩说,“借助当今的大数据技术,组织现在拥有一个经济上有吸引力的选择,可以将所有数据整合到一个单一的、可扩展的基础设施模型中。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注