揭秘数据湖——胡迪从内核到实战详解(1)
胡迪简介
胡迪将带来流式大数据,提供新的数据集,同时比传统的批处理效率高出一个数据数量级。
胡迪快速建设
将Apache-maven-3 . 6 . 1-bin . tar . gz上传到linux的/opt/software目录。
将Apache-maven-3 . 6 . 1-bin . tar . gz解压到/opt/module/目录。
将apache-maven-3.6.1的名称改为maven。
将环境变量添加到/etc/profile。
测试安装结果。
修改setting.xml指定阿里云。
快速开始使用Spark-shell。
Spark-shell启动需要指定spark-avro模块,因为它在默认环境中不可用。spark-avro模块的版本需要对应spark版本,这里是2.4.5。
设置表名、基本路径和数据生成器。
添加数据,生成一些数据,加载到数据帧中,然后将数据帧写入胡迪表。
模式(覆盖)将覆盖重新创建的表(如果它已经存在)。可以查看/tmp/胡迪_trps_cow路径下是否有生成的数据。
因为测试数据分区是地区/国家/城市,所以load(base path "/*/*/*/* ")。
与插入新数据类似,数据生成器用于生成新数据来更新历史数据。将数据加载到数据帧中,并将数据帧写入胡迪表。
胡迪还提供了获取自定义提交时间戳的功能来改变记录流。这可以通过使用胡迪的增量查询来实现,并提供启动流程进行更改的开始时间。
这将在提交beginTime和Fare >:数据20之后提供数据。
根据具体时间查询,可以将endTime指向具体时间,将beginTime指向000(表示最早提交时间)。
只有在追加模式下才支持删除功能。
大数据技术生态系统
大数据的切片机制有哪些?
Kafka大数据集群部署
大数据JUC面试问题
为大数据学习部署Hadoop