揭秘数据湖——胡迪从内核到实战详解(1)

胡迪的引进与建设

胡迪简介

胡迪将带来流式大数据,提供新的数据集,同时比传统的批处理效率高出一个数据数量级。

胡迪快速建设

将Apache-maven-3 . 6 . 1-bin . tar . gz上传到linux的/opt/software目录。

将Apache-maven-3 . 6 . 1-bin . tar . gz解压到/opt/module/目录。

将apache-maven-3.6.1的名称改为maven。

将环境变量添加到/etc/profile。

测试安装结果。

修改setting.xml指定阿里云。

快速开始使用Spark-shell。

Spark-shell启动需要指定spark-avro模块,因为它在默认环境中不可用。spark-avro模块的版本需要对应spark版本,这里是2.4.5。

设置表名、基本路径和数据生成器。

添加数据,生成一些数据,加载到数据帧中,然后将数据帧写入胡迪表。

模式(覆盖)将覆盖重新创建的表(如果它已经存在)。可以查看/tmp/胡迪_trps_cow路径下是否有生成的数据。

因为测试数据分区是地区/国家/城市,所以load(base path "/*/*/*/* ")。

与插入新数据类似,数据生成器用于生成新数据来更新历史数据。将数据加载到数据帧中,并将数据帧写入胡迪表。

胡迪还提供了获取自定义提交时间戳的功能来改变记录流。这可以通过使用胡迪的增量查询来实现,并提供启动流程进行更改的开始时间。

这将在提交beginTime和Fare >:数据20之后提供数据。

根据具体时间查询,可以将endTime指向具体时间,将beginTime指向000(表示最早提交时间)。

只有在追加模式下才支持删除功能。

大数据技术生态系统

大数据的切片机制有哪些?

Kafka大数据集群部署

大数据JUC面试问题

为大数据学习部署Hadoop