云计算

如何在EMR镜像中下载Hudi的JAR文件 (AWS: EKS上的EMR)

本文主要是介绍如何在EMR镜像中下载Hudi的JAR文件 (AWS: EKS上的EMR),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

Hudi JARs 包含在 AWS EMR 图像中。如有需要,可以下载。

AWS: 如何在EMR上从EKS下载Hudi JARs

一个介绍

AWS EMR 镜像包含了 Apache Hudi JAR 文件。如有必要,这些 Apache Hudi JAR 文件可以从 AWS EMR 镜像中下载。

这里有一些步骤,你可以按照它们来实现它。

第一步:拉取EMR的图像

首先,找到你想要下载Apache Hudi的JAR文件的AWS EMR映像。

以下链接列出了 AWS EMR Image 包含的应用程序版本。

参考一下,AWS EMR 图像版本文档在 EMR on EKS 中仅描述了 EMR on EKS 特定的内容。Amazon Web Services Elastic MapReduce(Amazon EMR)专业术语在此首次出现时应加以说明。

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-release-components.html

更多详情请参阅:

  • https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-release-components.html
  • https://docs.aws.amazon.com/emr/latest/EMR-on-EKS-DevelopmentGuide/emr-eks-7.0.0.html
    docker pull public.ecr.aws/emr-on-eks/spark/emr-6.15.0:latest

执行上述命令以从公共 Amazon ECR 仓库拉取最新的 EMR on EKS Spark 版本。

获取AWS EMR图像

步骤 2:确认 Hudi JAR 文件的位置在 EMR 图像中。

在 AWS EMR 镜像中,库文件夹位于路径 /usr/lib 下。Apache Hudi 的 JAR 文件可以在 /usr/lib/hudi 下找到。

执行以下命令来启动Docker容器,该容器包含了最新的EMR 6.15.0 Spark版本。

docker run -it public.ecr.aws/emr-on-eks/spark/emr-6.15.0:latest /bin/bash
路径
  • 根目录路径: /usr/lib/
  • Hudi JAR文件路径: /usr/lib/hudi/
  • Spark文件路径: /usr/lib/spark/jars/

确认EMR映像中的Hudi JAR文件的路径

步骤 3:从 EMR 镜像中把 Hudi JAR 复制到主机上

检查完Apache Hudi JARs的路径之后,可以使用以下命令下载。

    docker cp <container_id>:/usr/lib/hudi/hudi-spark3-bundle_2.12-0.14.0-amzn-0.jar .  
    docker cp <container_id>:/usr/lib/hudi/hudi-utilities-bundle_2.12-0.14.0-amzn-0.jar .  

    ==  

    # 在我的情况下,容器ID 是 `e8686bdc772e`.  
    docker cp e8686bdc772e:/usr/lib/hudi/hudi-spark3-bundle_2.12-0.14.0-amzn-0.jar .  
    docker cp e8686bdc772e:/usr/lib/hudi/hudi-utilities-bundle_2.12-0.14.0-amzn-0.jar .

将 Hudi JARs 从 EMR 镜像复制到主机

这篇关于如何在EMR镜像中下载Hudi的JAR文件 (AWS: EKS上的EMR)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!