반응형
MapReduce
-
하둡(Hadoop) MR(MapReduce)란?Back-End/Hadoop 2024. 7. 25. 13:45
맵리듀스(MapReduce)는 하둡에서 대규모 데이터 세트를 분산 처리하기 위해 사용되는 프로그래밍 모델입니다. 이 모델은 두 가지 주요 단계인 맵(Map)과 리듀스(Reduce)로 구성됩니다. 각각의 단계가 어떻게 작동하는지, 그리고 이를 통해 데이터가 어떻게 처리되는지를 자세히 설명드리겠습니다.맵리듀스(MapReduce) 작업의 개요맵(Map) 단계:입력 데이터를 작은 조각으로 나누고, 각 조각을 병렬로 처리하여 중간 결과를 생성합니다.맵 함수는 입력 데이터를 키-값 쌍으로 변환합니다.셔플(Shuffle) 및 정렬(Sort):맵 단계에서 생성된 중간 결과를 키를 기준으로 정렬하고, 같은 키를 가진 값들을 모읍니다.이 단계는 자동으로 수행되며, 데이터가 리듀서로 전송되기 전에 일어납니다.리듀스(Redu..