hdfs dfs -du -h /命令查看各目录数据量,按业务划分统计各目录总数据量,明确需迁移的数据范围。hdfs dfs -cp命令备份源数据到本地或其他存储系统(如对象存储),防止迁移过程中数据丢失。hdfs dfsadmin -report),网络互通(源集群与目标集群节点间可互相访问)。mapreduce.job.maps参数控制),效率高。hdfs dfs -put(本地→HDFS)、hdfs dfs -get(HDFS→本地)、hdfs dfs -mv(HDFS内移动)等命令,但无法实现并行复制。hadoop distcp结合其HDFS兼容接口,或使用Apache NiFi、DataX等可视化工具(需额外配置)。hadoop distcp [options] hdfs://source-namenode:port/source_path hdfs://destination-namenode:port/target_pathhadoop distcp hdfs://namenode1:8020/data hdfs://namenode1:8020/destination。hadoop distcp hdfs://nn1:9820/foo/bar hdfs://nn2:9820/bar/foo。-p:保留文件属性(权限、时间戳、所有者等);-update:仅复制源文件中修改过的部分(增量迁移);-overwrite:覆盖目标集群中已存在的同名文件;-m <num>:设置并行复制线程数(如-m 50表示使用50个线程)。-progress参数显示实时复制进度(如hadoop distcp -progress ...),或查看目标集群的NameNode Web界面(默认端口50070)中的“Utilities”→“Browse the file system”查看目标路径数据量增长情况。top(查看CPU/内存使用率)、jstat(查看JVM状态)、iostat(查看磁盘IO)等命令行工具,监控集群节点资源占用情况,避免因资源耗尽导致迁移失败。hdfs fsck命令检查目标集群中数据的校验和,确保与源数据一致:hdfs fsck -files -blocks -locations /hdfs/target/path | grep -i checksumhdfs dfs -ls -R命令递归统计源目录和目标目录的文件数量,确保无遗漏:hdfs dfs -ls -R hdfs://source-namenode:port/source_path | wc -lhdfs dfs -ls -R hdfs://destination-namenode:port/target_path | wc -l。rm -rf /local/backup/path)。core-site.xml中的fs.defaultFS参数),指向目标集群的NameNode地址。-log参数指定日志路径,如hadoop distcp -log /path/to/logfile ...),便于后续排查问题。注:迁移过程中若遇到Kerberos认证问题(跨集群需认证),需在DistCp命令中添加-D ipc.client.fallback-to-simple-auth-allowed=true参数,或在目标集群的core-site.xml中配置该参数。