Hadoop distcp 정리
자주 이용하는 옵션만 사용해서.. 다른 옵션들도 사용하자! 편한기능이 많이 있었다..
주의할점
-
여러군데의 파일을 각각의 폴더 위치로 이동시키는 것은 불가
-
목적지(destination) 폴더에 파일이 존재하면 파일이 전달되지 않을 수도 있다.
파일 이동시 확인하도록 하자.
distcp 명령
hadoop distcp hdfs://source hdfs://destination
update or overwrite
파일 이름이 동일할 경우 update는 파일사이즈를 비교해서 옮기고, overwrite는 그냥 덮어쓴다.
hadoop distcp -update hdfs://source hdfs://destination
hadoop distcp -overwrite hdfs://source hdfs://destination
여러위치의 파일을 하나의 위치로 이동, *를 이용하여 복사하는것도 가능
hadoop distcp hdfs://source1 hdfs://soucrce2 hdfs://destination
hadoop distcp hdfs://source/*/* hdfs://destination
hadoop distcp hdfs://source/*.csv hdfs://destination
여러 위치를 파일에 저장하고 -f 옵션으로 하나의 위치로 이동
hadoop distco -f hdfs://source_file hdfs://destination
-D 옵션을 이용하여 하둡 처리 옵션을 지정하는 것도 가능
hadoop distcp -Dmapred.job.queue.name=dist hdfs://source hdfs://destination