hdfs文件系统(hadoop的分布式文件系统操作)

   2023-03-05 互联网0
核心提示:大数据需要学习的框架有很多,而Hadoop作为大数据开发的核心模块,就需要多加了解。HDFS是基于Java的分布式文件系统,对于理解Hadoop分布式文件系统很有帮助,今天我们就一起来深入解析大数据Hadoop中的HDFS。 一、什么

hdfs文件系统(hadoop的分布式文件系统操作)

大数据需要学习的框架有很多,而Hadoop作为大数据开发的核心模块,就需要多加了解。HDFS是基于Java的分布式文件系统,对于理解Hadoop分布式文件系统很有帮助,今天我们就一起来深入解析大数据Hadoop中的HDFS。

一、什么是HDFS?

HDFS负责数据文件的存储,为整个Hadoop生态圈提供了基础的存储服务。提供了一个低成本、高性能、高容错、高可靠的分布式文件系统。

HDFS是一个主/从(Master/Slave)体系架构,由于分布式存储的性质,集群拥有两类节点NameNode和DataNode。NameNode(名字节点):系统中通常只有一个,中心服务器的角色,管理存储和检索多个DataNode的实际数据所需的所有元数据。

二、HDFS的特点

1、低成本:搭建HDFS主要是通过横向扩展机器数量而非花高价钱购进昂贵的服务器。

2、高性能:处理大型任务上集群处理效率,多台机器分块并行处理要比单台机器串行处理要快很多

3、高容错:数据自动保存多个副本。它通过增加副本的形式,提高容错性。数据自动保存多个副本,副本丢失后,自动恢复。

4、高可靠:HDFS解决了单点问题,HDFS集群中心节点是非常重要的,如果中心节点宕机整个集群将无法使用,所以中心节点NameNode会有主要节点(Primary)和备份节点(Stand By)。如果Primary出现问题Stand By可以自动接替Primary工作。

三、HDFS如何存储数据?

HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client(客户端)、NameNode(主管、管理者)、DataNode(slave)和Secondary NameNode。可以看看下面这张图:

以上就是关于HDFS的部份解析了,希望对大家能有多帮助。HDFS作为Hadoop主要的核心,在数据存储方面为我们提供了保证,是非常优秀的分布式文件系统。如果想了解更多详情,请点击成都加米谷大数据官网吧!

 
标签: 分布式 副本 节点
反对 0举报 0 评论 0
 

免责声明:本文仅代表作者个人观点,与爱美生活网(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • java是做什么的(语言分布式支持字)
    java是做什么的(语言分布式支持字)
    Java是一种编程语言。它兼具C++语言的优点,因此,Java语言功能强大且易于使用。作为静态面向对象编程语言的代表,Java语言很好地实现了面向对象的理论,允许程序员以简单的方式执行复杂的编程。Java的设计与C++非常相似,但为了使语言
  • 区块链有哪些特点
    区块链有哪些特点
    区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,很多朋友不知道区块链有哪些特点,下面让我们一起来了解一下吧。方法/步骤1区块链不可伪造、不可虚构、不可篡改。2每个区块的块头包含了前一区块的交易信息的压缩值。
  • 分布式存储软件功能(ceph分布式存储优缺点)
    分布式存储软件功能(ceph分布式存储优缺点)
    Ceph简介 Ceph 存储集群至少需要 1 个 Ceph Monitor 和 2 个 OSD 守护进程。运行 Ceph 文件系统客户端时,则必须要有元数据服务器( metadata Server )。 硬件推荐 操作系统推荐 CP
点击排行