大数据相关技术栈扫盲

博主：皆非
发布时间：2021 年 09 月 23 日
4784 次浏览
暂无评论
3717字数
分类：知识总结

本文只列举常见大数据技术栈，只简单介绍概念，之后会随博主的不断学习进行补充

Zookeeper

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。

它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

ZooKeeper包含一个简单的原语集，提供Java和C的接口。

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。

HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算 [1] 。

HBase

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。即是一个分布式的、面向列的开源数据库。

HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

另一个不同的是HBase基于列的而不是基于行的模式。

Hive

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。

hive十分适合对数据仓库进行统计分析。

ClickHouse

ClickHouse 是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

ClickHouse 是 Yandex(俄罗斯最大的搜索引擎)开源的一个用于实时数据分析的基于列存储的数据库，其处理数据的速度比传统方法快 100-1000 倍。

ClickHouse 的性能超过了目前市场上可比的面向列的 DBMS，每秒钟每台服务器每秒处理数亿至十亿多行和数十千兆字节的数据。

我们首先理清一些基础概念：

OLTP：是传统的关系型数据库，主要操作增删改查，强调事务一致性，比如银行系统、电商系统。
OLAP：是仓库型数据库，主要是读取数据，做复杂数据分析，侧重技术决策支持，提供直观简单的结果。

(号称最快查询)

Flink

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行。

Flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输系统

Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

ElasticSearch

Elasticsearch是一个基于Lucene的搜索服务器。

它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。

Elasticsearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#）、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。

根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr，也是基于Lucene。

Kafka

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据，有如下特性：

通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
高吞吐量 [2] ：即使是非常普通的硬件Kafka也可以支持每秒数百万 [2] 的消息。
支持通过Kafka服务器和消费机集群来分区消息。
支持Hadoop并行数据加载

对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。

Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

最后修改：2021 年 09 月 26 日

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

RabZhu
我现在解析了血缘关系，再把血缘关系写入到哪种数据库中，我在想有...
llhqiqi520
该评论仅登录用户及评论双方可见
llhqiqi520
现在升到1.8.0了,谷歌邮箱一直失败过不了,我也用QQ邮箱了...
llhqiqi520
哈哈哈,我是顺序看下来的,你在22年就不用啦,此外,评论邮箱提...
llhqiqi520
github的萌卜兔美化插件已经断更很久啦,现在直接在GitH...

大数据相关技术栈扫盲

皆非 • 2021 年 09 月 23 日

<blockquote>
本文只列举常见大数据技术栈，只简单介绍概念，之后会随博主的不断学习进行补充
</blockquote>
<h1>Zookeeper</h1>
ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。
它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。
ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。
ZooKeeper包含一个简单的原语集，提供Java和C的接口。
<h1>Hadoop</h1>
Hadoop是一个由Apache基金会所开发的<a class="no-external-link" href="https://baike.baidu.com/item/分布式系统/4905336" target="_blank">分布式系统</a>基础架构。
用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个<a class="no-external-link" href="https://baike.baidu.com/item/分布式文件系统/1250388" target="_blank">分布式文件系统</a>（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。
HDFS有高<a class="no-external-link" href="https://baike.baidu.com/item/容错性/9131391" target="_blank">容错性</a>的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问<a class="no-external-link" href="https://baike.baidu.com/item/应用程序/5985445" target="_blank">应用程序</a>的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）<a class="no-external-link" href="https://baike.baidu.com/item/POSIX/3792413" target="_blank">POSIX</a>的要求，可以以流的形式访问（streaming access）文件系统中的数据。
Hadoop的框架最核心的设计就是：<a class="no-external-link" href="https://baike.baidu.com/item/HDFS/4836121" target="_blank">HDFS</a>和<a class="no-external-link" href="https://baike.baidu.com/item/MapReduce/133425" target="_blank">MapReduce</a>。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算 [1] 。
<h1>HBase</h1>
HBase – Hadoop Database，是一个高<a class="no-external-link" href="https://baike.baidu.com/item/可靠" target="_blank">可靠</a>性、高性能、面向列、可伸缩的<a class="no-external-link" href="https://baike.baidu.com/item/分布式存储系统" target="_blank">分布式存储系统</a>，利用HBase技术可在廉价PC Server上搭建起大规模<a class="no-external-link" href="https://baike.baidu.com/item/结构" target="_blank">结构</a>化<a class="no-external-link" href="https://baike.baidu.com/item/存储" target="_blank">存储</a>集群。即是一个分布式的、面向列的开源数据库。
HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
另一个不同的是HBase基于列的而不是基于行的模式。
<h2>Hive</h2>
hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。
Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。
hive十分适合对数据仓库进行统计分析。
<h2>ClickHouse</h2>
ClickHouse 是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。
ClickHouse 是 Yandex(俄罗斯最大的搜索引擎)开源的一个用于实时数据分析的基于列存储的数据库，其处理数据的速度比传统方法快 100-1000 倍。
ClickHouse 的性能超过了目前市场上可比的面向列的 DBMS，每秒钟每台服务器每秒处理数亿至十亿多行和数十千兆字节的数据。
我们首先理清一些基础概念：
<ul>
<li>OLTP：是传统的关系型数据库，主要操作增删改查，强调事务一致性，比如银行系统、电商系统。</li>
<li>OLAP：是仓库型数据库，主要是读取数据，做复杂数据分析，侧重技术决策支持，提供直观简单的结果。</li>
</ul>
(号称最快查询)
<h1>Flink</h1>
Apache Flink是由<a class="no-external-link" href="https://baike.baidu.com/item/Apache软件基金会/2912769" target="_blank">Apache软件基金会</a>开发的开源流处理框架，其核心是用<code>Java</code>和<code>Scala</code>编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行。
<h1>Flume</h1>
Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输系统
Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
<h1>ElasticSearch</h1>
Elasticsearch是一个基于<a class="no-external-link" href="https://baike.baidu.com/item/Lucene/6753302" target="_blank">Lucene</a>的搜索服务器。
它提供了一个分布式多用户能力的<a class="no-external-link" href="https://baike.baidu.com/item/全文搜索引擎/7847410" target="_blank">全文搜索引擎</a>，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。
Elasticsearch用于<a class="no-external-link" href="https://baike.baidu.com/item/云计算/9969353" target="_blank">云计算</a>中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#）、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。
根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr，也是基于Lucene。
<h1>Kafka</h1>
Kafka是由<a class="no-external-link" href="https://baike.baidu.com/item/Apache软件基金会" target="_blank">Apache软件基金会</a>开发的一个开源流处理平台，由<a class="no-external-link" href="https://baike.baidu.com/item/Scala/2462287" target="_blank">Scala</a>和<a class="no-external-link" href="https://baike.baidu.com/item/Java/85979" target="_blank">Java</a>编写。
Kafka是一种高吞吐量的<a class="no-external-link" href="https://baike.baidu.com/item/分布式/19276232" target="_blank">分布式</a>发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据 ，有如下特性：
<ul>
<li>
通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
</li>
<li>
高吞吐量 [2] ：即使是非常普通的硬件Kafka也可以支持每秒数百万 [2] 的消息。
</li>
<li>
支持通过Kafka服务器和消费机集群来分区消息。
</li>
<li>
支持<a class="no-external-link" href="https://baike.baidu.com/item/Hadoop" target="_blank">Hadoop</a>并行数据加载
</li>
</ul>
对于像<a class="no-external-link" href="https://baike.baidu.com/item/Hadoop" target="_blank">Hadoop</a>一样的<a class="no-external-link" href="https://baike.baidu.com/item/日志/2769135" target="_blank">日志</a>数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。
Kafka的目的是通过<a class="no-external-link" href="https://baike.baidu.com/item/Hadoop" target="_blank">Hadoop</a>的并行加载机制来统一线上和离线的消息处理，也是为了通过<a class="no-external-link" href="https://baike.baidu.com/item/集群/5486962" target="_blank">集群</a>来提供实时的消息。

大数据相关技术栈扫盲

Zookeeper

Hadoop

HBase

Hive

ClickHouse

Flink

Flume

ElasticSearch

Kafka

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

美化优化个人网站历程

搭建【分布式新生电子报到系统】过程

从事SQL血缘解析一年后，谈谈我对它的理解

2021考研感想——考研失败不是遗憾，没有考研才是遗憾！

【CodeTop x LeetCode】Page 5 ： 81-100面试高频算法题题解

Java基础知识总结

redis知识总结

博主的微信公众号《皆非的万事屋》上线了

【知识图谱】初步探索：术语概念+protege本体构建+D2RQ/Jena+SPARQL

第十一届蓝桥杯——Java软件开发（省赛）总结（20201017）

大数据相关技术栈扫盲

Zookeeper

Hadoop

HBase

Hive

ClickHouse

Flink

Flume

ElasticSearch

Kafka

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

大数据相关技术栈扫盲

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款