- 2022-06-10
- 阅读()
- 来源:互联数据
当我们搭建网站的时候经常会碰到数据库,那数据湖和数据库有什么关系呢?其实,数据仓库大部分是结构化的,并来自关系数据库,也可以收集非结构化数据,但是大多数情况是要收集结构化数据。而数据湖专门用于存储任何形式的数据,即结构化或非结构化。它还使我们能够以其本机格式保存大量原始数据,直到需要它为止。
数据仓库收集来自多个源(内部或外部),该数据被进一步用于商业目的优化的数据。而数据湖主要与面向Hadoop的对象存储相关。在这种情况下,首先将组织的数据加载到Hadoop平台,然后再加载到业务分析。进一步,将数据挖掘工具添加到该数据中,该数据挖掘工具通常位于商用计算机的Hadoop群集节点中。
数据湖与数据仓库:两者都使用两种不同的策略来存储数据。
一、数据湖是什么?
数据湖的概念仅在2000年才开始兴起,国内数据湖的概念也是在2020年才由阿里在云栖大会上提出并展露锋芒,数据湖展示了如何存储数据以及如何同时节省成本。
数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
但是随着大数据技术的融合发展,数据湖不断演变,汇集了各种技术,包括数据仓库、实时和高速数据流技术、数据挖掘、深度学习、分布式存储和其他技术。逐渐发展成为一个可以存储所有结构化和非结构化任意规模数据,并可以运行不同类型的大数据工具,对数据进行大数据处理、实时分析和机器学习等操作的统一数据管理平台。
数据湖:直接将原始数据全量存入数据湖(结构化、半结构化、非结构化等),而且数据湖存储的数据量巨大且来源多样,数据湖应该支持异构和多样的存储,如HDFS、HBase、Hive等。
优势是——保留原始数据的全量信息便于后期挖掘(数据具有保真性、灵活性、可管理、可追溯、丰富的计算引擎(批处理、流计算、交互式分析、机器学习)
(1)轻松地收集和摄入数据:企业中的所有数据源都可以送入数据湖中。因此,数据湖成为了存储在企业内部服务器或云服务器中的结构化和非结构化数据的无缝访问点。此外,数据湖可以用多种文件格式存储多种格式的数据,比如文本、音频、视频和图像。这种灵活性简化了旧有数据存储的集成。
(2)支持实时数据源:数据湖支持对实时和高速数据流执行 ETL 功能,这有助于将来自 IoT 设备的传感器数据与其他数据源一起融合到数据湖中。
(3)更快地准备数据:分析师和数据科学家不需要花时间直接访问多个来源,可以更轻松地搜索、查找和访问数据,这加速了数据准备和重用流程。数据湖还会跟踪和确认数据血统,这有助于确保数据值得信任,还会快速生成可用于数据驱动的决策的 BI。
(4)更好的可扩展性和敏捷性:数据湖可以利用分布式文件系统来存储数据,因此具有很高的扩展能力。开源技术的使用还降低了存储成本。数据湖的结构没那么严格,因此天生具有更高的灵活性,从而提高了敏捷性。数据科学家可以在数据湖内创建沙箱来开发和测试新的分析模型。
(5)具有人工智能的高级分析:访问原始数据,创建沙箱的能力,以及重新配置的灵活性,这些使得数据湖成为了一个快速开发和使用高级分析模型的强大平台。数据湖非常适合使用机器学习和深度学习来执行各种任务,比如数据挖掘和数据分析,以及提取非结构化数据。
劣势是——在消费时要重新进行ETL数据处理。数据湖,多源异构、大规模、各种实时性要求。
数据湖目标用户:数据分析师、数据科学家。除了大数据基础平台的能力之外,更要求数据管理、治理及数据资产化能力。
二、数据湖与数据仓库的区别:
1、服务对象不同。从用户差异上来看,数据仓库适合企业中大数据产品开发人员和业务用户。而数据湖是较新的技术,拥有不断演变的架构。数据湖存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据。根据定义,数据湖不会接受数据治理,但专家们都认为良好的数据管理对预防数据湖转变为数据沼泽不可或缺。
数据湖在数据读取期间创建模式。与数据仓库相比,数据湖缺乏结构性,而且更灵活;它们还提供了更高的敏捷性。在检索数据之前无需执行任何处理,而且数据湖特意使用了便宜的存储。最适合数据分析师或数据科学家,他们直接基于数据沙箱做自由探索和分析,这些人要求有技术背景,会写代码或熟悉SQL。
2、对于管理企业的人员一般来说有两种特征,开放性与有序性,创业公司的人思想往往比较开放,但管理大型公司的人更注重秩序,同理这个概念可以使用在如今的数据结构中,开放意味着容易接受新信息以及接纳新的观点,创业公司拥抱开放的原因他们必须学会打破常规,在市场中创造新的价值。
开放性→数据湖:数据湖以其原生格式保存大量原始数据,包括结构化的、半结构化的和非结构化的数据,并且在使用数据之前,不对数据结构进行定义。开放性的特征直接指向数据湖的概念,数据湖是新数据可以不受任何限制地进入的地方,在这里,任何数据都可以存在,因此这里是发现新想法,用数据实验绝妙来源,但同时因为其对任何数据的开放性,使得其缺乏有意义的结构,对于数据量较大时,就显得有些混乱了。
有序性→数据库: 数据仓库中存储的主要是结构化数据,对于加载到数据仓库中的数据,首先需要定义数据存储模型。有序性直接指向数据仓库,在数据仓库中,我们将维度和指标视为可查询的,这是可以统一管理,优势是消费时可以直接使用,劣势是原始数