数据湖概念诞生,是由于企业面临如何存储和处理数据的挑战。企业的应用中会产生大量不同类型的数据,而这些数据像孤岛一样存在,大多数企业不具备从中挖掘价值的能力。企业迫切需要更高的数据管理、数据分析能力,为了解决上述问题,数据湖的概念应运而生,数据湖不但能存储传统类型数据,也能存储任意其他类型数据,并且能在它们之上做进一步的处理与分析,可以助力企业快速数字化转型。
永久拥有一个存放所有数据的地方
传统的日志管理体系结构是基于索引的,需要在数据解析和填充方面进行大量前期投资。而数据湖则不同,它在抓取数据时不必定义日志的结构。数据湖的方法是收集所有不同类型的数据,并根据未来需要处理的问题,做不同的分析。
在Snowflake 中,用户可以通过将日志数据作为JSON 体收集到登录表的变体列中。然后,用户可以创建一个SQL 视图,该视图不只允许从JSON 中选择键属性作为列,还可以关联数据集来做增维分析。例如,仅使用数字帐户ID 生成的日志事件可以与单独的账号明细表连接,以获得人类可读的帐户别名。
这种方法对于以云为中心的公司尤其有用,这些公司的大部分基础设施分布在几十个SaaS 和PaaS 解决方案中,每个解决方案都有自己的日志模式。例如,当你准备好关联工作日志和Salesforce 记录时,就可以创建一个视图来规范化相关的字段进行分析。
考虑到生成的日志量呈指数增长,云原生数据湖的经济学也值得回顾。例如,在Snowflake 中,客户可以以每月每TB 23 美元的价格存储数据。这个价格是针对压缩数据和日志的,通常至少要压缩3 倍。这样一来,数据存储就成了安全预算中的一个四舍五入误差。
除了节省成本之外,廉价的存储还可以收集更详细的日志和数据集,比如流日志,这对于SIEM 解决方案来说非常昂贵。拥有数据湖的安全团队应该将他们的保留期限考虑为「永久」。
数据湖变得容易
第一代安全数据湖是在Hadoop 上构建的。令人兴奋的是Hadoop 适合于企业机器数据:大型的非关系型数据。问题在于Hadoop 集群被证明在操作上很复杂,在分析上也很有挑战性。由于技术上的缺陷,他们的安全分析潜力也没有很好地挖掘。
快进五年,数据湖技术现在是主流云供应商(和Snowflake)的优先考虑。技术进步和SQL 的复苏使人们更容易从半结构化大数据的自助分析中获益,而不像Hadoop 及其同类产品那样存在缺陷。
如果感兴趣,可以阅读关于使用新一代数据湖解决方案的组织的成功故事(详情请点击阅读原文)。这些解决方案在每个行业中都得到了快速采用,因此,大多数安全团队都有机会利用现有的企业数据湖项目。对于前瞻性CISO 制定其云优先的安全策略而言,这意味着更少的开销和更高的ROI。
你将为数据科学做好准备
谈到前瞻性的安全专家,你可能会问如何处理这些TB 级的收集数据。考虑一下数据科学对任何应用程序的潜力,在这些应用程序中有大量的信息,需要洞察和预测。
随着企业数据操作的成熟,他们将分析扩展到从财务到人力资源再到IT 的各个部门。没有人期望每个部门会雇佣自己的数据科学家。相反,有一种协作模型,领域专家与数据科学家一起定义问题,最终实现自服务的BI 仪表盘和分析驱动的自动化。
[ID:ipfsunion6]
扫描二维码
关注官方公众号