0%

1、分布式文件系统HDFS操作

分布式文件系统HDFS操作

Hadoop安装:

Mater Hadoop虚拟机:Linux操作系统,主节点(名字节点,存储管理(元数据),作业(Job)调度)) Slave Hadoop虚拟机:Linux操作系统,从节点(数据节点:数据存储、实际计算)。

建议大家采用Hadoop分布式模式。

日志的作用

(记录了对数据增、删、改等操作): 1)数据恢复 2)提高效率

该示例中: 1)每个数据节点有多少个数据块? 每个数据节点有3-4个数据块 -> 每个数据节点存储的块的个数基本一致 -> 保证负载平衡

2)每个数据块的副本分到了几个数据节点? 每个数据块的副本分到了2个数据节点 -> 2副本冗余(Hadoop一般是3副本冗余)

3)请自己设计另一种存储方案(三个数据节点分布保存1-5数据块,每数据块是2副本)。 DN1:1 2 3 5 DN2:1 3 4 DN3:2 4 5 ...

HDFS

HDFS系统中,一个数据块一般有几个数据副本? 一个数据块一般有3个数据副本。

HDFS的一个数据块默认是多大? 64MB

Linux常用操作命令

Ctrl + Shift + T:启动命令终端
:用户主目录 / :根目录 ./:当前目录 ../:上一级目录 pwd:查看当前目录名称

ls:查看文件/目录信息 (ll:查看文件/目录详细信息) cd:进入目录 rm:删除文件 mv:移动文件 cat:查看文件内容 cp:拷贝文件

vi、vim:创建和编辑文件 gedit:创建和编辑文件 (相当于Windows的记事本)

clear:清屏 history:显示历史命令

Hadoop常用操作命令 start-all.sh (Hadoop启动批处理命令,start-dfs.sh, start-yarn.sh) stop-all.sh(Hadoop结束批处理命令) jps:查看Java进程 (master共有四个进程,如下: 5022 NameNode 5199 SecondaryNameNode 5345 ResourceManager 5664 Jps

slave共有三个进程: 4794 DataNode 4898 NodeManager 5056 Jps )

HDFS常用操作命令

hadoop dfs -ls :查看指定目录下文件信息 e.g. hadoop dfs -ls /

hadoop dfs -mkdir :创建指定目录

hadoop dfs -cat :查看制定文件的内容 e.g. hadoop dfs -cat /input-20200324/hello.txt

hadoop dfs -put :将本地文件上传到分布式文件HDFS hadoop dfs -copyfromlocal e.g. hadoop dfs -put ./logs/. /input-20200324

hadoop dfs -get :将分布式文件HDFS的指定文件下载到本地文件

hadoop dfs -rm :删除HDFS的指定目录或文件 e.g. hadoop dfs -rm /input-20200324/*.out