하둡
-
하둡(Hadoop) MR(MapReduce)란?Back-End/Hadoop 2024. 7. 25. 13:45
맵리듀스(MapReduce)는 하둡에서 대규모 데이터 세트를 분산 처리하기 위해 사용되는 프로그래밍 모델입니다. 이 모델은 두 가지 주요 단계인 맵(Map)과 리듀스(Reduce)로 구성됩니다. 각각의 단계가 어떻게 작동하는지, 그리고 이를 통해 데이터가 어떻게 처리되는지를 자세히 설명드리겠습니다.맵리듀스(MapReduce) 작업의 개요맵(Map) 단계:입력 데이터를 작은 조각으로 나누고, 각 조각을 병렬로 처리하여 중간 결과를 생성합니다.맵 함수는 입력 데이터를 키-값 쌍으로 변환합니다.셔플(Shuffle) 및 정렬(Sort):맵 단계에서 생성된 중간 결과를 키를 기준으로 정렬하고, 같은 키를 가진 값들을 모읍니다.이 단계는 자동으로 수행되며, 데이터가 리듀서로 전송되기 전에 일어납니다.리듀스(Redu..
-
하둡(Hadoop)으로 데이터 저장 추출해보기Back-End/Hadoop 2024. 7. 25. 13:28
하둡을 사용하여 데이터를 저장하고 추출하는 과정은 여러 단계로 나뉘며, 각 단계는 비교적 직관적입니다. 아래에서는 하둡을 사용하여 데이터를 저장하고 추출하는 과정을 단계별로 쉽게 설명하겠습니다.1. 데이터 저장1.1 데이터 준비먼저 저장할 데이터를 준비합니다. 예를 들어, 로컬 파일 시스템에 저장된 로그 파일이나 CSV 파일 등을 준비합니다.1.2 HDFS에 데이터 업로드하둡 분산 파일 시스템(HDFS)에 데이터를 저장하기 위해, 로컬 파일 시스템에 있는 데이터를 HDFS로 업로드합니다. 이를 위해 hdfs dfs -put 명령어를 사용합니다.# 로컬 파일 system_logs.csv를 HDFS의 /data 디렉토리에 업로드hdfs dfs -put /path/to/local/system_logs.csv ..
-
하둡(Hadoop)이란?Back-End/Hadoop 2024. 7. 25. 12:52
하둡(Hadoop)은 오픈 소스 분산 처리 프레임워크로, 대규모 데이터 세트를 효율적으로 저장하고 처리하기 위해 개발되었습니다. 하둡은 저렴한 하드웨어를 이용하여 대용량 데이터를 분산 처리할 수 있도록 설계되었습니다. 아래에서는 하둡의 기본 개념, 구성 요소, 장점, 그리고 사용 사례를 자세히 소개하겠습니다.하둡의 기본 개념하둡은 대규모 데이터를 처리하기 위해 두 가지 주요 기능을 제공합니다:HDFS (Hadoop Distributed File System): 대규모 데이터를 분산 저장하는 파일 시스템입니다.MapReduce: 분산 데이터 처리 모델입니다.이 두 가지 기능을 결합하여 하둡은 데이터를 저장하고 분석하는데 탁월한 성능을 발휘합니다.하둡의 주요 구성 요소HDFS (Hadoop Distribut..