본문 바로가기

data engineering

(12)
Hadoop의 개요 #4 - 네임노드 HA(High Availability:고가용성) 1) 필요성 - 하둡 1.0에서는 네임노드 한대 여러대의 데이터노드들로 구성이 되었음 - SPOF(Single Point Of Failure, 단일 고장점): 네임노드가 정상적으로 작동하지 않으면 모든 클라이언트가 HDFS에 접근 불가 - 네임노드 파일 시스템 이미지에 문제가 생겨도 HDFS에 저장된 데이터에 조회 불가능 - 파일 시스템 이미지에 HDFS의 디렉토리 구조와 파일 위치가 저장되어 있기 때문에 네임노드에 문제가 생기면 블록에 접근할 수 있는 통로가 사라짐 - 네임노드의 에디트로그에 문제가 생겨도 데이터 유실이 될 수 있음 - 에디트 로그(editslog): HDFS의 모든 변경이력이 담겨 있음 HDFS에 저장된 파일을 수정하면 네임노드에 에디트로그 만들어짐 - 에디트 로그는 파일시스템이미지에..
Hadoop의 개요 #3 - HDFS 아키텍처 HDFS는 마스터(Master)와 슬레이브(Slave) 구조로 이루어져 있다. 마스터-슬레이브 구조는 1개의 하드웨어(마스터)가 1개 이상인 다른 기기(슬레이브)를 제어하는 형태이다. 마스터 역할을 수행하는 서버를 네임노드라고 하고 슬레이브 역할을 수행하는 서버를 데이터노드라고 한다. 아래는 각 역할에 대해 간략하게 정리한 것이다. 1) 네임노드 역할 ① 메타 데이터(파일 시스템이미지+파일 블록매핑정보) 관리 - 파일 시스템 이미지: 파일명, 디렉터리, 크기, 권한 - 메모리에 저장된 메타데이터의 파일 시스템 이미지를 저장한 파일(스냅샷) - 파일에 대한 블록 매핑 정보: 어떤 블록이 어느 데이터노드에 저장되어있는 지 - 메모리 전체에 메타데이터를 로딩 ② 데이터 노드 모니터링 - 데이터 노드가 3초마다..
Hadoop의 개요 #2 - HDFS 특징 하둡의 아키텍쳐는 가장 크게 두가지로 나뉜다. 하둡 파일시템인 HDFS(Hadoop Distributed File System)와 하둡에 저장된 데이터를 처리하는 MapReduce(Yarn). 이번 포스팅은 HDFS에 다뤄보겠다. HDFS(Hadoop Distributed File System) HDFS는 말 그대로 하둡 분산 파일 시스템이다. 대용량의 파일을 분산된 서버에 저장하고 그 데이터를 빠르게 처리할 수 있게 설계되었다. 아룬 머시(아파치 하둡 부사장)은 인터뷰에서 HDFS를 소개할 때 이렇게 말했다. " HDFS란 하둡 네트워크에 연결된 아무 기기에나 데이터를 밀어 넣는 분산형 파일시스템이다. 물론 여기에도 체계가 있어서 그냥 닥치는 대로 배치하는 것은 아니지만, RDBMS의 고도로 엄격한 저..
하둡(Hadoop)의 개요 #1 하둡이란? 하둡(Hadoop)은 대용량 데이터를 분산처리 할 수 있는 자바 기반의 오픈소스 프레임워크이다. 하둡은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고 분산 처리 시스템인 맵리듀스(MapReduce)를 이용해 데이터를 처리한다. 하둡은 분산처리 프레임워크 중 가장 대표적이고 유명한데, 이유는 오픈소스라 라이선스 비용이 없고, 서버 값밖에 비용이 안들기 때문에 저렴하면서 데이터를 여러 대의 서버에 저장하는 분산 파일시스템과 저장된 서버(HDFS)에서 동시에 데이터 처리까지 가능하기 때문이다. 2008년 뉴욕 타임즈는 130년 분량의 신문기사 1,100만 페이지를 아마존 EC2, S3, 하둡을 이용해 하루만에 PDF로 변환했다고 한다. 이때..