概述
这段时间花了部分时间在处理消息总线跟日志的对接上。这里分享一下在日志采集和日志解析中遇到的一些问题和处理方案。
日志采集-flume
logstash VS flume
首先谈谈我们在日志采集器上的选型。由于我们选择采用ElasticSearch作为日志的存储与搜索引擎。而基于 ELK(ElasticSearch,Logstash,Kibana)的技术栈在日志系统方向又是如此流行,所以把Logstash列入考察对象也是顺 理成章,Logstash在几大主流的日志收集器里算是后起之秀,被Elastic收购之后更加成熟,社区也比较活跃。
Logstash的设计:input
,filter
,output
。flume的设计source
,channel
,sink
,当然flume也有interceptor
。具体的设计就不多废话,大致上都是拆分,解耦,pipeline(管道)的思想。同时,它们都支持分布式扩展,比如Logstash既可以作为shipper也可作为indexer,flume可以多个agent组成分布式事件流。
我对flume的接触早于Logstash。最近调研Logstash的时候,对它强大的filter印象深刻,特别是grok
。而之前flume阵营强调最多的是它的source,sink,channel对各种开源组件的扩展支持非常强大。
Logstash固然是一个不错的,但它采用JRuby
语言(一种形似Ruby语法的JVM平台的语言)实现使得它的定制性不够灵活, 这是我放弃Logstash的主要原因。因为生态的原因,我确实需要Java技术栈提供的扩展性(这里主要目标是将消息总线作为日志采集的缓存队列),而 这正是flume的强项。但flume里很少有提及对日志的解析支持,即便有支持正则的interceptor,也只是很有限的查找、替换之类的。经过一 番调研发现其实flume提供了这样一个interceptor——morphline
。它可以完成对日志的解析。
日志解析-morphline
morphline简介
morphline是由flume的母公司cloudera开源的一个ETL框架。它用于构建、改变基于Hadoop进行ETL(extract、 transfer、load)的流式处理程序。(值得一提的是flume是由cloudera捐献给Apache的,后来经过重构成了flume- ng)。morphline使得你在构建ETL Job不需要编码并且不需要大量的MapReduce技巧。
morphline是一个富配置文件可以很简单得定义一个转化链,用于从任何数据源消费任何类型的数据,处理数据然后加载结果到Hadoop组件中。它用简单的配置步骤代替了Java编程。
morphline是一个类库,可以嵌入任何java程序中。morphline是一个内存容器可以存储转化命令。这些命令以插件的形式被加载到 morphline中以执行任务,比如加载、解析、转化或者处理单条记录。一个记录是在内存中的名称-值对的数据结构。而且morphline是可扩展 的,可以集成已存在的功能和第三方系统。
这篇文章不是morphline的软文,所以更多介绍请移步cloudera的CDK官方文档。
这里有副图,形象地展示了morphline大致的处理模型:
系统。利用storm stream做实时解析,利用mapreduce做离线分析,这种高度定制化的使用场景,几乎不需要flume的agent在客户端进行解析的能力,因此flume的morphline也就很少被提及。
但morphline还是不可多得的文本ETL利器,无论你是在采集的时候直接用morphline 做ETL还是在服务端做,flume+morphline加起来带来的灵活性也不输Logstash。
http://www.2cto.com/kf/201511/450943.html
http://my.oschina.net/u/2311010/blog/523066?p=1
相关推荐
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可...
Flume采集Nginx日志到Hive的事务表时需要导入到Flume下的Jar文件,具体使用方式可参见博文:https://blog.csdn.net/l1028386804/article/details/97975539
flume采集日志所用的jar包,将自动采集生成的日志,配合博客使用。
其中上篇介绍了HDFS以及流式数据/日志的问题,同时还谈到了Flume是如何解决这些问题的。本书展示了Flume的架构,包括将数据移动到数据库中以及从数据库中获取数据、NoSQL数据存储和性能调优。对于各个架构组件(源、...
《Flume:构建高可用、可扩展的海量日志采集系统》从Flume 的基本概念和设计原理开始讲解,分别介绍了不同种类的组件、如何配置组件、如何运行Flume Agent 等。同时,分别讨论Source、Channel 和Sink 三种核心组件,...
flume采集日志信息,功能强大,输出采集方式多样,处理大日志
flume:构建高可用、可扩展的海量日志采集系统 flume:构建高可用、可扩展的海量日志采集系统
基于java的开发源码-日志服务器 Apache Flume.zip 基于java的开发源码-日志服务器 Apache Flume.zip 基于java的开发源码-日志服务器 Apache Flume.zip 基于java的开发源码-日志服务器 Apache Flume.zip 基于java的...
Flume++构建高可用、可扩展的海量日志采集系统 Flume++构建高可用、可扩展的海量日志采集系统
Flume的介绍及其架构组成 Flume的安装部署 Flume的测试运行 Flume中配置使用file channel及HDFS sink Flume中配置HDFS文件生成大小及时间分区 Flume中配置Spooling Dir的使用 Flume中配置Spooling Dir的文件...
这里详细的介绍了日志采集的流程,日志采集的步骤。。。
Flume采集Nginx日志到新版Hive,Flume中需要添加的Jar包,各软件版本为:Hadoop 3.2.0、Flume 1.9.0、Hive 3.1.2、Nginx 1.17.2。
04、日志收集系统Flume-flume配置案例
讲述如何采用最简单的kafka+flume的方式,实时的去读取oracle中的重做日志+归档日志的信息,从而达到日志文件数据实时写入到hdfs中,然后将hdfs中的数据结构化到hive中。
用Flume采集多台机器上的多种日志并存储于HDFS, 在集群上使用flume收集多台机器的日志集中到hdfs上,作后面的日志分析
04、日志收集系统Flume-flume自定义开发案例