Joswlv

DistCp 정리

2018-11-22

Hadoop distcp 정리

자주 이용하는 옵션만 사용해서.. 다른 옵션들도 사용하자! 편한기능이 많이 있었다..

주의할점

  • 여러군데의 파일을 각각의 폴더 위치로 이동시키는 것은 불가

  • 목적지(destination) 폴더에 파일이 존재하면 파일이 전달되지 않을 수도 있다.

    파일 이동시 확인하도록 하자.

distcp 명령

hadoop distcp hdfs://source hdfs://destination

update or overwrite

파일 이름이 동일할 경우 update는 파일사이즈를 비교해서 옮기고, overwrite는 그냥 덮어쓴다.

hadoop distcp -update hdfs://source hdfs://destination

hadoop distcp -overwrite hdfs://source hdfs://destination

여러위치의 파일을 하나의 위치로 이동, *를 이용하여 복사하는것도 가능

hadoop distcp hdfs://source1 hdfs://soucrce2 hdfs://destination

hadoop distcp hdfs://source/*/* hdfs://destination

hadoop distcp hdfs://source/*.csv hdfs://destination

여러 위치를 파일에 저장하고 -f 옵션으로 하나의 위치로 이동

hadoop distco -f hdfs://source_file hdfs://destination

-D 옵션을 이용하여 하둡 처리 옵션을 지정하는 것도 가능

hadoop distcp -Dmapred.job.queue.name=dist hdfs://source hdfs://destination

Repreence


Comments