Hadoop教程

hadoop API学习

本文主要是介绍hadoop API学习,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

  hadoop API就是在windows上进行环境配置,远程操作linux的hdfs,今天学习的是将在终端上的命令转换为代码,通过代码对hadoop上面的数据远程操作,练习的命令有文件上传、下载、创建目录、删除、更名和移动、获取文件信息、查看文件类型

  代码的操作使用Java编写,用到maven、单元测试,在测试之前需要进行依赖的导入,还需要在windows进行环境配置

Hadoop的windows环境依赖配置和hadoop的windows依赖包

  将以上环境配置好之后,创建maven工程

1、在pom.xml导入依赖

<dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.2.3</version>
        </dependency>

        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.13</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>1.7.30 </version>
        </dependency>

2、在resource中创建log4j.properties文件

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

 

  下面是我进行测试的一些代码

/**
*author:Jzz
*time:2022-8-01
*/
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;

public class HdfsClient {
    private FileSystem fs;

    @Before
    public void init(){
        //           连接集群namenode地址
        URI uri = null;
        try {
            uri = new URI("hdfs://hadoop102:8020");
            //            创建配置文件
            Configuration configuration = new Configuration();
            configuration.set("dfs.replication","2");
//            获取到客户端对象
            fs = FileSystem.get(uri, configuration,"jzz");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    @After
    public void destory(){
        try {
            fs.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    //创建目录
    @Test
    public void testmkdir(){
        try {
//            创建文件夹
            fs.mkdirs(new Path("/xiyou/huaguo"));
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

//    上传文件

    /**
     * 参数优先级
     * hdfs-default.xml=>hdfs-site.xml=>resource配置里面hdfs-site.xml=>init中的configuration设置
     */
    @Test
    public void testup(){
//        参数一:删除源数据,参数二:是否覆盖,参数三:源路径,参数四:目的路径
        try {
            fs.copyFromLocalFile(false,true,new Path("D:\\text.txt"),new Path("/xiyou/huaguo"));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    /**
     * 第四个参数:开启数据检验,会生成.crc文件
     */
    @Test
    public void testdownload(){
        try {
            fs.copyToLocalFile(false,new Path("/xiyou/huaguo"),new Path("D:\\"),true);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    /**
     * 删除
     * 参数解读:1:删除路径 2:是否递归删除
     */
    @Test
    public void testRm() throws IOException {
//        删除文件
//        fs.delete(new Path("/xiyou/huaguo/text.txt"),false);
//        删除空目录
        fs.delete(new Path("/xiyou"),false);
//        删除非空目录,必须递归删除
        fs.delete(new Path("/jinguo"),true);
    }

    /**
     * 文件的更名和移动
     * 参数一:文件源路径,参数二:文件目的路径
     */
    @Test
    public void testrm() throws IOException {
//        文件的改名
//        fs.rename(new Path("/input/word.txt"),new Path("/input/ss.txt"));
//    文件的移动
        fs.rename(new Path("/input/ss.txt"),new Path("/cls.txt"));
    }

    /**
     * 获取文件信息
     * 参数一:文件目录,参数二:递归获取
     */
    @Test
    public void testGetFile() throws IOException {
//        获取文件信息
        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"),true);
//        遍历文件
        while (listFiles.hasNext()){
            LocatedFileStatus fileStatus = listFiles.next();

            System.out.println("====" + fileStatus.getPath() + "====");
            System.out.println(fileStatus.getPermission());
            System.out.println(fileStatus.getOwner());
            System.out.println(fileStatus.getGroup());
            System.out.println(fileStatus.getLen());
            System.out.println(fileStatus.getModificationTime());
            System.out.println(fileStatus.getReplication());
            System.out.println(fileStatus.getBlockSize());
            System.out.println(fileStatus.getPath().getName());

//            获取快信息
            BlockLocation[] locations = fileStatus.getBlockLocations();
            System.out.println(Arrays.toString(locations));
        }
    }

    /**
     * 判断是文件还是文件夹
     */
    @Test
    public void testFile() throws IOException {
        FileStatus[] status = fs.listStatus(new Path("/"));
        for(FileStatus fileStatus : status){
            if (fileStatus.isFile()) {
                System.out.println("文件:" + fileStatus.getPath().getName());
            }else {
                System.out.println("目录:" + fileStatus.getPath().getName());
            }
        }
    }
}

 

这篇关于hadoop API学习的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!