본문 바로가기

전체 글

(30)

빅데이터 수집 - 빅데이터의 수집 기술은 조직의 내외부에 있는 다양한 시스템으로부터 이다. - 빅데이터 수집에는 기존의 수집 시스템보다 더 크고 다양한 형식의 데이터를 빠르게 처리해야 하는 기능이 필요한데, 그래서 확장이 가능하고 분산 처리가 가능한 형태로 구성해야 한다. - 빅데이터 수집기는 로우(raw) 시스템의 다양한 인터페이스 유형(DB, 파일, API, 메시지 등) 과 연결되어 정형, 반정형, 비정형 데이터를 대용량으로 수집한다. - 특히 외부 데이터(SNS, 블로그, 포털 등)를 수집할 때는 크롤링 등 비정형 처리를 위한 기술이 선택적으로 적용된다. * crawling이란? 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위 - 수집 처리에는 대용량 파일 수집과 실시간 스트림 수집으로 나뉜다. -..

Hadoop의 개요 #4 - MapReduce와 YARN 하둡 개념을 잡을 때, 맵리듀스와 얀의 관계에 대해 이해하는게 참 힘들었다. YARN의 또다른 이름이 MapReduce2이다. 아니 왜...? 당시 공부 할때, 맵리듀스와 얀 둘이 아예 다른 개념인것 같았다. 우선 개념만! 공부할 때는 뜬구름 속 이야기 같아서 머리에 텍스트만 늘었을 뿐, 개념들이 형상화 되어 내 것이 되지 못했기 때문이다. 그러다보니 이해도 안되고 왜 얀이 맵리듀스의 진화형인지 도통 모르겠더라. ㅠㅠ가만히 있을 수는 없으니까...그냥 삽질 몇번 하다보니 개념이 잡히게 되었다. 역시 나는 손을 움직여야한다 대략적으로 개념을 잡고 가자면, 하둡 1.0에서는 오로지 맵리듀스 방식으로 HDFS에 저장된 데이터를 처리했었다. 맵리듀스는 대량의 데이터를 처리할 때 괜찮은 성능을 제공하는 알고리즘이..

Hadoop의 개요 #4 - 네임노드 HA(High Availability:고가용성) 1) 필요성 - 하둡 1.0에서는 네임노드 한대 여러대의 데이터노드들로 구성이 되었음 - SPOF(Single Point Of Failure, 단일 고장점): 네임노드가 정상적으로 작동하지 않으면 모든 클라이언트가 HDFS에 접근 불가 - 네임노드 파일 시스템 이미지에 문제가 생겨도 HDFS에 저장된 데이터에 조회 불가능 - 파일 시스템 이미지에 HDFS의 디렉토리 구조와 파일 위치가 저장되어 있기 때문에 네임노드에 문제가 생기면 블록에 접근할 수 있는 통로가 사라짐 - 네임노드의 에디트로그에 문제가 생겨도 데이터 유실이 될 수 있음 - 에디트 로그(editslog): HDFS의 모든 변경이력이 담겨 있음 HDFS에 저장된 파일을 수정하면 네임노드에 에디트로그 만들어짐 - 에디트 로그는 파일시스템이미지에..

Hadoop의 개요 #3 - HDFS 아키텍처 HDFS는 마스터(Master)와 슬레이브(Slave) 구조로 이루어져 있다. 마스터-슬레이브 구조는 1개의 하드웨어(마스터)가 1개 이상인 다른 기기(슬레이브)를 제어하는 형태이다. 마스터 역할을 수행하는 서버를 네임노드라고 하고 슬레이브 역할을 수행하는 서버를 데이터노드라고 한다. 아래는 각 역할에 대해 간략하게 정리한 것이다. 1) 네임노드 역할 ① 메타 데이터(파일 시스템이미지+파일 블록매핑정보) 관리 - 파일 시스템 이미지: 파일명, 디렉터리, 크기, 권한 - 메모리에 저장된 메타데이터의 파일 시스템 이미지를 저장한 파일(스냅샷) - 파일에 대한 블록 매핑 정보: 어떤 블록이 어느 데이터노드에 저장되어있는 지 - 메모리 전체에 메타데이터를 로딩 ② 데이터 노드 모니터링 - 데이터 노드가 3초마다..

Hadoop의 개요 #2 - HDFS 특징 하둡의 아키텍쳐는 가장 크게 두가지로 나뉜다. 하둡 파일시템인 HDFS(Hadoop Distributed File System)와 하둡에 저장된 데이터를 처리하는 MapReduce(Yarn). 이번 포스팅은 HDFS에 다뤄보겠다. HDFS(Hadoop Distributed File System) HDFS는 말 그대로 하둡 분산 파일 시스템이다. 대용량의 파일을 분산된 서버에 저장하고 그 데이터를 빠르게 처리할 수 있게 설계되었다. 아룬 머시(아파치 하둡 부사장)은 인터뷰에서 HDFS를 소개할 때 이렇게 말했다. " HDFS란 하둡 네트워크에 연결된 아무 기기에나 데이터를 밀어 넣는 분산형 파일시스템이다. 물론 여기에도 체계가 있어서 그냥 닥치는 대로 배치하는 것은 아니지만, RDBMS의 고도로 엄격한 저..

하둡(Hadoop)의 개요 #1 하둡이란? 하둡(Hadoop)은 대용량 데이터를 분산처리 할 수 있는 자바 기반의 오픈소스 프레임워크이다. 하둡은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고 분산 처리 시스템인 맵리듀스(MapReduce)를 이용해 데이터를 처리한다. 하둡은 분산처리 프레임워크 중 가장 대표적이고 유명한데, 이유는 오픈소스라 라이선스 비용이 없고, 서버 값밖에 비용이 안들기 때문에 저렴하면서 데이터를 여러 대의 서버에 저장하는 분산 파일시스템과 저장된 서버(HDFS)에서 동시에 데이터 처리까지 가능하기 때문이다. 2008년 뉴욕 타임즈는 130년 분량의 신문기사 1,100만 페이지를 아마존 EC2, S3, 하둡을 이용해 하루만에 PDF로 변환했다고 한다. 이때..

티스토리툴바