Spark Shell各种操作及详细说明

m635674608

浏览: 4928438 次
性别:
来自: 南京

最近访客更多访客>>

millerchu

xdung

yunnick

lijun4010

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

spark

并行化scala集合(Parallelize)

//加载数据1~10

val num=sc.parallelize(1 to 10)

//每个数据项乘以2,注意 _*2记为一个函数(fun)

val doublenum = num.map(_*2)

//内存缓存数据

doublenum.cache()

//过滤数据，每个数据项 % 3 为0的数据为结果集；

val threenum = doublenum.filter(_ % 3 == 0)

//释放缓存

threenum.unpersist()

//出发action操作根据前面的步骤构建DAG并执行，以数据的形式返回结果集；

threenum.collect

//返回结果集中的第一个元素

threenum.first

//返回结果集中的前三个元素

threenum.take(3)

//对数据集中的元素个数统计

threenum.count

//查看以上步骤经过的RDD转换过程

threenum.toDebugString

结果：

K-V类型数据演示

// 加载数据

val kv1=sc.parallelize(List(("A",1),("B",2),("C",3),("A",4),("B",5)))

//根据数据集中的每个元素的K值对数据排序

kv1.sortByKey().collect

kv1.groupByKey().collect //根据数据集中的每个元素的K值对数据分组

kv1.reduceByKey(_+_).collect

注意：sortByKey 、groupByKey 、reduceByKey之间的结果集的区别；

val kv2=sc.parallelize(List(("A",4),("A",4),("C",3),("A",4),("B",5)))

kv2.distinct.collect // distinct操作去重

kv1.union(kv2).collect //kv1与kv2联合

kv1.join(kv2).collect //kv1与kv2两个数据连接，相当于表的关联

val kv3=sc.parallelize(List(List(1,2),List(3,4)))

kv3.flatMap(x=>x.map(_+1)).collect //注意这里返回的数据集已经不是K-V类型了

HDFS文件操作演示

先将clk.tsv和reg.tsv文件上传到hdfs,文件格式如下;

// 定义一个对日期格式化的常量

val format = new java.text.SimpleDateFormat("yyyy-MM-dd")

// scala语法，定义Register类(根据reg.tsv数据格式)

case class Register (d: java.util.Date, uuid: String, cust_id: String, lat: Float,lng: Float)

// scala语法，定义Click类(根据clk.tsv数据格式)

case class Click (d: java.util.Date, uuid: String, landing_page: Int)

// 加载hdfs上的文件reg.tsv并将每行数据转换为Register对象；

val reg = sc.textFile("hdfs://chenx:9000/week2/join/reg.tsv").map(_.split("\t")).map(r => (r(1), Register(format.parse(r(0)), r(1), r(2), r(3).toFloat, r(4).toFloat)))

// 加载hdfs上的文件clk.tsv并将每行数据转换为Click对象；

val clk = sc.textFile("hdfs://chenx:9000/week2/join/clk.tsv").map(_.split("\t")).map(c => (c(1), Click(format.parse(c(0)), c(1), c(2).trim.toInt)))

reg.join(clk).collect

http://www.cnblogs.com/jianyuan/p/4004486.html?utm_source=tuicool&utm_medium=referral

分享到：

spark rdd 转换过程 | spark shell的学习

2015-10-24 00:11
浏览 1044
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark Shell各种操作及详细说明

并行化scala集合(Parallelize)

K-V类型数据演示

HDFS文件操作演示

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark Shell各种操作及详细说明

并行化scala集合(Parallelize)

K-V类型数据演示

HDFS文件操作演示

评论

发表评论

相关推荐

Spark_总结五

Spark Streaming 结合 Kafka 两种不同的数据接收方式比较

Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式

Spark Streaming中KafkaReceiver内幕实现彻底解密

Spark2.1.0文档：Spark Streaming 编程指南（上）

Spark MLlib之协同过滤

spark-streaming-kafka包源码分析

Spark Streaming：性能调优

Apache Spark探秘：Spark Shuffle实现

Spark2.1.0入门：DStream转换操作

No output streams registered, so nothing to execute

了解SparkSQL运行计划及调优

sparksql性能调优

Spark性能优化：开发调优篇

Spark性能优化：数据倾斜调优

Spark性能优化：资源调优篇

Spark性能优化：shuffle调优

Spark java.lang.outofmemoryerror gc overhead limit exceeded 与 spark OOM:java hea

Spark 内存分配

基于Spark UI性能优化与调试——初级篇

最近访客更多访客>>