`
m635674608
  • 浏览: 4938407 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

hadoop如何分发本地的jar文件

 
阅读更多
这个命令实际上是转化成下面的命令来运行的
在RunJar中,会读取abc.jar文件,然后尝试从manifest中提取Main-Class作为mainClass,如果manifest中没有指定,则把abc.jar之后的下一个参数当成mainClass。
接下来,RunJar会在本地创建一个临时目录(下面称为workDir,类似/tmp/hadoop-unjar...),然后把abc.jar解压到这个目录中。然后,把wrokDir、workDir/classes和workDir/lib下的所有文件路径
添加到一个变量中,然后使用URLClassLoader将这个变量指定的所有路径加载到当前线程。
最后,使用反射调用mainClass的main函数,进入用户自己的代码。
当我们的代码调用job.waitForCompletion时,会调用JobClient.copyAndConfigureFiles,把本地的jar文件拷贝到HDFS上面/tmp/hadoop/mapred/staging/<jobid/job.jar/的目录下。
TaskTracker获取到一个Task之后,会启动一个线程TaskLauncher来处理这个Task。在启动这个Task之前,会调用taskController.initializeJob来初始化Job,把Job相关的内容从HDFS上拷贝到本地(JobLocalizer.localizeJobJarFile负责拷贝jar并解压到本地workDir中)。
后面TaskRunner.getClassPaths把
wrokDir、workDir/classes和workDir/lib下的所有文件路径
添加到一个变量中,然后使用这个变量构造启动JVM的参数,最后启动一个新的JVM来运行Job。
从这个流程可以看出,我们jar中的
根目录,classes目录,和lib下的所有文件
都被添加到了执行环境(另外还有系统自身的环境变量CLASSPATH和Hadoop自身依赖的库)中。
因此,如果我们想要在我们的hadoop中添加一个外部的库,可以有两种方法:
1.把外部的jar解压了,然后将所有的.class与我们自己的代码打包在一起(maven-shade-plugin可以很轻松地帮我们做这件事);
2.创建一个lib目录,把依赖的jar文件放在里面,然后把lib目录和我们的代码打包在一起。
最后,提一下-libjars参数。如果我们使用ToolRunner.run来启动我们的Job,那么可以使用-libjars来指定依赖的外部jar。
不过-libjars有一定的局限性,由于-libjars来指定依赖的外部jar是在ToolRunner.run中使用GenericOptionsParser来加载的,因此在调用ToolRunner.run之前,外部jar还没有加载,不能使用这些类,甚至import(直接或间接)也不行(JVM加载一个类时会先检查这个类所引用的其他类型是否都可以找得到)。如果搞不清楚外部jar在何时可以用,不建议使用-libjars。
当然在Map和Reduce阶段时,-libjars来指定依赖的外部jar就完全可以无限制地使用了。Hadoop会自动把-libjars来指定依赖的外部jar上传到HDFS上,每个Job在执行之前,这些jar会自动被拷贝到本地,并设置到classpath中。


一般情况下,我们会使用下面的命令来运行一个hadoop任务:
hadoop jar abc.jar arg0 arg1 ...
这个命令实际上是转化成下面的命令来运行的
java org.apache.hadoop.util.RunJar abc.jar arg0 arg1 ...
在RunJar中,会读取abc.jar文件,然后尝试从manifest中提取"Main-Class"作为mainClass,如果manifest中没有指定,则把abc.jar之后的下一个参数当成mainClass。
接下来,RunJar会在本地创建一个临时目录(下面称为workDir,类似/tmp/hadoop-unjar...),然后把abc.jar解压到这个目录中。
然后,把wrokDir、workDir/classes和workDir/lib下的所有文件路径添加到一个变量中,然后使用URLClassLoader将这个变量指定的所有路径加载到当前线程。
最后,使用反射调用mainClass的main函数,进入用户自己的代码。
 
当我们的代码调用job.waitForCompletion时,会调用JobClient.copyAndConfigureFiles,把本地的jar文件拷贝到HDFS上面/tmp/hadoop/mapred/staging/<jobid>/job.jar/的目录下。
 
接下来我们来看TaskTracker是如何获取和使用abc.jar的。
TaskTracker获取到一个Task之后,会启动一个线程TaskLauncher来处理这个Task。在启动这个Task之前,会调用taskController.initializeJob来初始化Job,把Job相关的内容从HDFS上拷贝到本地(JobLocalizer.localizeJobJarFile负责拷贝jar并解压到本地workDir中)。
后面TaskRunner.getClassPaths把wrokDir、workDir/classes和workDir/lib下的所有文件路径添加到一个变量中,然后使用这个变量构造启动JVM的参数,最后启动一个新的JVM来运行Job。
 
从这个流程可以看出,我们jar中的根目录,classes目录,和lib下的所有文件都被添加到了执行环境(另外还有系统自身的环境变量CLASSPATH和Hadoop自身依赖的库)中。
因此,如果我们想要在我们的hadoop中添加一个外部的库,可以有两种方法:
 
1.把外部的jar解压了,然后将所有的.class与我们自己的代码打包在一起(maven-shade-plugin可以很轻松地帮我们做这件事);
2.创建一个lib目录,把依赖的jar文件放在里面,然后把lib目录和我们的代码打包在一起。
 
最后,提一下-libjars参数。如果我们使用ToolRunner.run来启动我们的Job,那么可以使用-libjars来指定依赖的外部jar。
不过-libjars有一定的局限性,由于-libjars来指定依赖的外部jar是在ToolRunner.run中使用GenericOptionsParser来加载的,因此在调用ToolRunner.run之前,外部jar还没有加载,不能使用这些类,甚至import(直接或间接)也不行(JVM加载一个类时会先检查这个类所引用的其他类型是否都可以找得到)。如果搞不清楚外部jar在何时可以用,不建议使用-libjars。
 
当然在Map和Reduce阶段时,-libjars来指定依赖的外部jar就完全可以无限制地使用了。Hadoop会自动把-libjars来指定依赖的外部jar上传到HDFS上,每个Job在执行之前,这些jar会自动被拷贝到本地,并设置到classpath中。
 
本文的分析基于hadoop 1.0.3。
分享到:
评论

相关推荐

    elasticsearch 与hadoop 相关的jar

    包含 elasticsearch-hadoop-6.6.1.jar elasticsearch-hadoop-hive-6.6.1.jar elasticsearch-spark-20_2.11-6.6.1.jar elasticsearch-storm-6.6.1.jar 等

    hadoop-2.10.0jar.zip

    包含hadoop平台Java开发的所有所需jar包,例如activation-1.1.jar apacheds-i18n-2.0.0-M15.jar apacheds-kerberos-codec-2.0.0-M15.jar api-asn1-api-1.0.0-M20.jar api-util-1.0.0-M20.jar asm-3.2.jar avro-1.7.7...

    hadoop的各种jar包

    使用ecplice操作hadoop所需要的各种jar包。包括hdfs,maprudce,yarn,httpfs,kms。

    spark-assembly-1.6.1-hadoop2.6.0.jar

    spark-assembly-1.6.1-hadoop2.6.0.jar,欢迎下载,,,,,,,,,,,,,,,,,,,,

    hadoop的外部依赖jar包

    有时候在eclipse上运行项目,需要引用的Hadoop的jar包,也就是hadoop的外部依赖包,有conf,fs,io,mapreduce等等,这里列举了一部分,基本上hadoop的所有外部依赖jar包都包含在内了,如果下载了不会使用,可以看我...

    spark-assembly-1.5.2-hadoop2.6.0.jar

    spark-assembly-1.5.2-hadoop2.6.0 在spark编程中使用的一个jar

    hadoop 2.7.5 eclipse jar

    hadoop 2.7.5 eclipse jar 包,只需要放到eclipse的plugin目录下重启即可

    hadoop 所用的jar包

    该jar包是属于大数据hadoop使用的些jar包,可以在编写代码的时候导入工程中

    hadoop-lzo-0.4.20.jar

    hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.20.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.20.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/Mac_OS_X-x86_64-64 下的所有文件 拷到 ...

    hadoop框架的jar包整合

    hadoop框架的jar包整合,共有123个hadoop相关的jar包,可以存为全局库

    hadoop hbase 全jar包

    里面包含了所有hbase用到的所有jar包,希望能够帮到正在学习hbase开发的小伙伴

    hadoop2.7.6所有jar包

    压缩包内含有hadoop2.7.6的所有jar包,一键导入,不用自己动手搜索啦

    hadoop的有关jar包

    资源包括hadoop-common-2.4.1.jar 、 hadoop-hdfs-2.4.1.jar、hadoop-mapreduce-client-app-2.4.1.jar、hadoop-mapreduce-client-common-2.4.1.jar、hadoop-yarn-api-2.4.1.jar、hadoop-yarn-client-2.4.1.jar等等...

    hadoop jar包.rar

    完整的Hadoop jar包,解压直接用。

    hadoop 依赖的jar包 包括asm-3.2什么的 一共21 个

    hadoop 依赖的jar包 包括asm-2.2.3 aspectjrt-1.8.10 aspectjtools-1.7.4 commons-beanutils-1.9.3 commons-beanutils-core-1.8.3 commons-cli-1.2 commons-codec-1.10 commons-collections-3.2.1 commons-...

    avro-mapred-1.7.7-hadoop2.jar

    avro-mapred-1.7.7-hadoop2.jar

    hadoop最新版本3.1.1全量jar包

    hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...

    Hadoop2.4.1的JAR包

    这是Hadoop2.4.1的所有JAR包,包含common, hdfs, mapreduce,yarn等Hadoop基本框架的JAR包,window和Linux通用。

    自己制作的hadoop2.6.0 eclipse jar包

    自己制作的hadoop2.6.0 eclipse jar包 Eclipse为luna版本 连接hadoop时会出现An internal error occurred during: "Map/Reduce location status updater". java.lang.NullPointerException 不过没关系不会影响文件的...

    hadoop_common.jar包

    hadoop操作的文档文献和hadoopjar包

Global site tag (gtag.js) - Google Analytics