分布式文件系统HDFS操作
Hadoop安装:
Mater Hadoop虚拟机:Linux操作系统,主节点(名字节点,存储管理(元数据),作业(Job)调度)) Slave Hadoop虚拟机:Linux操作系统,从节点(数据节点:数据存储、实际计算)。
建议大家采用Hadoop分布式模式。
日志的作用
(记录了对数据增、删、改等操作): 1)数据恢复 2)提高效率
该示例中: 1)每个数据节点有多少个数据块? 每个数据节点有3-4个数据块 -> 每个数据节点存储的块的个数基本一致 -> 保证负载平衡
2)每个数据块的副本分到了几个数据节点? 每个数据块的副本分到了2个数据节点 -> 2副本冗余(Hadoop一般是3副本冗余)
3)请自己设计另一种存储方案(三个数据节点分布保存1-5数据块,每数据块是2副本)。 DN1:1 2 3 5 DN2:1 3 4 DN3:2 4 5 ...
HDFS
HDFS系统中,一个数据块一般有几个数据副本? 一个数据块一般有3个数据副本。
HDFS的一个数据块默认是多大? 64MB
Linux常用操作命令
- Ctrl + Shift + T:启动命令终端
- :用户主目录 / :根目录 ./:当前目录 ../:上一级目录 pwd:查看当前目录名称
ls:查看文件/目录信息 (ll:查看文件/目录详细信息) cd:进入目录 rm:删除文件 mv:移动文件 cat:查看文件内容 cp:拷贝文件
vi、vim:创建和编辑文件 gedit:创建和编辑文件 (相当于Windows的记事本)
clear:清屏 history:显示历史命令
Hadoop常用操作命令 start-all.sh (Hadoop启动批处理命令,start-dfs.sh, start-yarn.sh) stop-all.sh(Hadoop结束批处理命令) jps:查看Java进程 (master共有四个进程,如下: 5022 NameNode 5199 SecondaryNameNode 5345 ResourceManager 5664 Jps
slave共有三个进程: 4794 DataNode 4898 NodeManager 5056 Jps )
HDFS常用操作命令
hadoop dfs -ls
hadoop dfs -mkdir
hadoop dfs -cat
hadoop dfs -put
hadoop dfs -get
hadoop dfs -rm