하둡 기반 대규모 작업 배치 및 처리 기술 설계

본 논문에서는 대규모의 작업을 고성능으로 처리하기 위한 Many-Task Computing(MTC) 기술을 기존의 빅데이터 처리 플랫폼인 Hadoop에 적용하기 위한 MOHA(Many-Task Computing on Hadoop) 프레임워크에 대해 기술한다. 세부적으로는 MOHA의 기본 개념과 개발 동기, 분산 작업 큐에 기반한 PoC(Proof-of-Concept) 수행 결과를 제시하고 향후 연구 방향에 대해서 논의하고자 한다. MTC 응용은 각각의 태스크들이 요구하는 I/O 처리량은 상대적으로 많지 않지만, 동시에 대량의 태스크들을 고성능으로 처리해야하고 이들이 파일을 통해서 통신한다는 특징을 가지고 있다. 따라서 기존의 상대적으로 큰 데이터 블록 사이즈에 기반한 Hadoop 응용과는 또 다른 패턴의 데이터 집약형 워크로드라고 할 수 있다. 이러한 MTC 기술과 빅데이터 기술의 융합을 통해 멀티 응용 플랫폼으로 진화하고 있는 Hadoop 생태계에 신규 프레임워크로서 대규모 계산과학 응용을 실행할 수 있는 MOHA를 추가하여 기여할 수 있을 것이다.