你当前位置:首页 >资讯 >

Datafold正在解决数据工程的混乱局面

2021-11-19 10:42来源:

看起来很简单。数据库中的一个小模式问题破坏了应用程序的功能,增加了延迟并降低了用户体验。驻地数据工程师弹出修订以修改架构,目前一切似乎都很好。他们不知道,那个小小的修补程序彻底破坏了公司领导层使用的所有仪表板。财务状况不佳,操作人员生气,而首席执行官-嗯,他们甚至都不知道公司是否在线。

对于数据工程师而言,这不仅仅是反复发生的噩梦,而是日常的现实。在整个“数据就是新的石油”掌声中添加了十年之久,而且我们仍在零星管理数据,而没有适当的系统和控制。数据湖已经变成数据海洋,数据仓库也已经成为……好吧,无论所谓的大型仓库(我想是一种仓库)。数据工程师弥合了现实生活中混乱的世界和代码的精确本质之间的鸿沟,他们需要更好的工具来完成工作。

作为TechCrunch的非官方数据工程师,我个人曾遇到许多类似的问题。这就是吸引我进入Datafold的原因。

Datafold是一个用于管理数据质量保证的全新平台。在很大程度上,软件平台具有质量保证和持续集成工具以确保代码按预期运行,Datafold跨数据源进行集成以确保一个表的模式更改不会在其他地方破坏功能。

创始人Gleb Mezhanskiy直接了解这些问题。从他在Lyft担任数据科学家和数据工程师的那一刻起,他就得到了很多消息,后来他成为了“专注于数据专业人员的生产力”的产品经理。当时的想法是,随着Lyft的扩张,它需要更好的数据管道和工具来保持与Uber及其同业的竞争优势。

他从Lyft获得的教训表明了Datafold当前的重点。Mezhanskiy解释说,该平台位于所有数据源及其出口之间的连接中。这里有两个挑战要解决。首先,“数据在变化,每天获取新数据,并且由于业务原因或因为数据源可能损坏,数据的形状可能会非常不同。”其次,“公司用来转换数据的旧代码也正在迅速改变,因为公司正在开发新产品,它们正在重构其功能……可能会发生很多错误。”

以等式形式:混乱的现实+数据工程中的混乱=数据最终用户不满意。

使用Datafold,可以将数据工程师在其提取和转换中所做的更改进行比较,以进行无意的更改。例如,也许以前返回整数的函数现在返回文本字符串,这是工程师引入的偶然错误。Datafold不会等到BI工具失败并且经理发出一堆警报时,才会指出可能存在某种问题,并确定发生了什么。

此处的关键效率是Datafold将数据集中的变化(甚至是具有数十亿个条目的数据集)聚合到摘要中,以便数据工程师甚至可以理解细微的缺陷。目标是即使在0.1%的情况下发生错误,Datafold也将能够识别该问题并将其摘要带给数据工程师以进行响应。

坦率地说,数据折叠正在进入一个与正在处理的数据一样混乱的市场。它位于数据堆栈的关键中间层–不是用于存储数据的数据湖或数据仓库,也不是最终用户BI工具,例如Looker,Tableau或许多其他工具。相反,它是可供数据工程师管理和监视其数据流以确保一致性和质量的许多工具的一部分。

该初创公司的目标是数据团队中至少有20人的公司-这是数据团队拥有足够规模和资源以至于他们将要关注数据质量的最佳地点。

今天,Datafold共有3个人,并将于本月晚些时候在YC的演示日正式亮相。它的终极梦想是世界,数据工程师再也不必花整夜的时间来解决数据质量问题。如果您去过那里,您就会确切知道为什么这种产品很有价值。