它是分布式的,有分多服务器联合起来实现其功能。
适合一次写入,多次读出的场景,且不支持文件的修改。
是和数据分析,并不适合用来做网盘应用。
NameNode(nn):1.存储文件的元数据{1.文件信息(文件名,文件目录结构,文件属性(生成时间,副本数,文件权限)),2.每个文件的块列表和块所在的DataNode(Block映射信息)},2.处理客户端读写请求。
DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验。
Secondary NameNode(2nn):是一个辅助后台的程序,用来监控HDFS状态,每隔一段时间获取HDFS元数据的快照。
上面计算的每秒传输大小为100MB只是一个近似值,实际为128M。
机械硬盘文件顺序读写的速度为100MB/s
普通固态为500MB/s
pcie固态的速度可以达到2000MB/s
因此块的大小可以分别设为128MB,512MB,2048MB.
CPU,磁盘,网卡之间的协同效率 即 跨物理机/机架之间文件传输速率
1. 如果块设置过大,
2. 如果块设置过小,
文件块越大,寻址时间越短,但磁盘传输时间越长;
文件块越小,寻址时间越长,但磁盘传输时间越短。
hdfs中负责把文件分成块的客户端。
单一节点(简化系统的设计和实现),负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。
一个管理文件命名空间和调节客户端访问文件的主服务器,当然还有一些数据节点,通常是一个节点一个机器,它来管理对应节点的存储。HDFS对外开放文件命名空间并允许用户数据以文件形式存储。
移动计算比移动数据更经济:
在靠近计算数据所存储的位置来进行计算是最理想的状态,尤其是在数据集特别巨大的时候。这样消除了网络的拥堵,提高了系统的整体吞吐量。
一个假定就是迁移计算到离数据更近的位置比将数据移动到程序运行更近的位置要更好。HDFS提供了接口,来让程序将自己移动到离数据存储更近的位置。
异构软硬件平台间的可移植性HDFS被设计成可以简便地实现平台间的迁移,这将推动需要大数据集的应用更广泛地采用HDFS作为平台。
hdfs的定义HDFS全称为:Hadoop Distributed File System,它是一个文件系统,用于存储文件,通过目录树来定位;其次,他是分布式的,由很多服务联合起来实现其功能,集群中的服务器有各自的角色。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)