Storm 和JStorm

m635674608

浏览: 4929113 次
性别:
来自: 南京

最近访客更多访客>>

millerchu

xdung

yunnick

lijun4010

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

分布式计算

于流处理框架，在先前的文章汇总已经介绍过Strom，今天学习的是来自阿里的的流处理框架JStorm。简单的概述Storm就是：JStorm 比Storm更稳定，更强大，更快，Storm上跑的程序，一行代码不变可以运行在JStorm上。直白的将JStorm是阿里巴巴的团队基于Storm的二次开发产物，相当于他们的Tengine是基于Ngix开发的一样。

阿里拥有自己的实时计算引擎

类似于hadoop 中的MR
开源storm响应太慢
开源社区的速度完全跟不上Ali的需求
降低未来运维成本
提供更多技术支持，加快内部业务响应速度

现有Storm无法满足一些需求

现有storm调度太简单粗暴，无法定制化
Storm 任务分配不平衡
RPC OOM一直没有解决
监控太简单
对ZK 访问频繁

JStorm相比Storm更稳定

Nimbus 实现HA：当一台nimbus挂了，自动热切到备份nimbus
原生Storm RPC：Zeromq 使用堆外内存，导致OS 内存不够，Netty 导致OOM；JStorm底层RPC 采用netty + disruptor保证发送速度和接受速度是匹配的
新上线的任务不会冲击老的任务：新调度从cpu，memory，disk，net 四个角度对任务进行分配，已经分配好的新任务，无需去抢占老任务的cpu，memory，disk和net
Supervisor主线
Spout/Bolt 的open/prepar
所有IO, 序列化，反序列化
减少对ZK的访问量：去掉大量无用的watch；task的心跳时间延长一倍；Task心跳检测无需全ZK扫描。

JStorm相比Storm调度更强大

彻底解决了storm 任务分配不均衡问题
从4个维度进行任务分配：CPU、Memory、Disk、Net
默认一个task，一个cpu slot。当task消耗更多的cpu时，可以申请更多cpu slot
默认一个task，一个memory slot。当task需要更多内存时，可以申请更多内存slot
默认task，不申请disk slot。当task 磁盘IO较重时，可以申请disk slot
可以强制某个component的task 运行在不同的节点上
可以强制topology运行在单独一个节点上
可以自定义任务分配，提前预约任务分配到哪台机器上，哪个端口，多少个cpu slot，多少内存，是否申请磁盘
可以预约上一次成功运行时的任务分配，上次task分配了什么资源，这次还是使用这些资源

JStorm相比Storm性能更好

JStorm 0.9.0 性能非常的好，使用netty时单worker 发送最大速度为11万QPS，使用zeromq时，最大速度为12万QPS。

JStorm 0.9.0 在使用Netty的情况下，比Storm 0.9.0 使用netty情况下，快10%，并且JStorm netty是稳定的而Storm 的Netty是不稳定的
在使用ZeroMQ的情况下， JStorm 0.9.0 比Storm 0.9.0 快30%

性能提升的原因：

Zeromq 减少一次内存拷贝
增加反序列化线程
重写采样代码，大幅减少采样影响
优化ack代码
优化缓冲map性能
Java 比clojure更底层

JStorm的其他优化点

资源隔离。不同部门，使用不同的组名，每个组有自己的Quato；不同组的资源隔离；采用cgroups 硬隔离
Classloader。解决应用的类和Jstorm的类发生冲突，应用的类在自己的类空间中
Task 内部异步化。Worker 内部全流水线模式，Spout nextTuple和ack/fail运行在不同线程

具体如何实现，请参考本ID的的博文系列【jstorm-源码解析】

http://my.oschina.net/infiniteSpace/blog/308401

分享到：

JStorm-0.9.6.2安装配置 | storm 入门原理介绍

2015-06-24 09:32
浏览 958
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Storm 和JStorm

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Storm 和JStorm

评论

发表评论

相关推荐

滑动窗口在storm中的实现

Geode/Gemfire学习笔记（一）环境搭建、快速上手

利用hadoop mapreduce 做数据排序

《BIG DATA大数据日知录 架构和算法》读书笔记

Apache Mahout 简介

Apache Tez：一个运行在YARN之上支持DAG作业的计算框架

开源分布式计算框架(DC4C)

spark RDD的理解

开源IMDG之GridGain

Hazelcast: Java分布式内存网格框架(平台)

大数据架构师：hadoop、Storm该选哪一个

hadoop storm 区别

分布式多副本一致性问题

Storm 实现滑动窗口计数和TopN排序

Storm: Transactional Topolgoy简介

Storm的并行度、Grouping策略以及消息可靠处理机制简介

Storm消息机制

Storm Topology的并发度

Storm On YARN

流式大数据处理的三种框架：Storm，Spark和Samza

最近访客更多访客>>

《BIG DATA大数据日知录架构和算法》读书笔记