본문 바로가기

전체 글

(30)
t-test 정규모집단의 평균추론구간 추정을 할때는 모집이 정규분포를 따르거나 표본이 크고 모분산을 알고 있을 때 할 수 있다. 모분산을 모르거나 모집단이 정규분포를 따르지 않고 표본의 수가 충분히 크지 않을 때는 어떻게 모수를 추론할 수 있을까? 평균의 표집분포의 추정모집표준편차에 대한 추정모집의 표준편차를 알 수 없을 때, 표본에서 계산 된 표준편차를 이용해 모집의 표준편차를 추정함모집표준편차의 추정값(표본의 표준편차)예) 중학교 1학년 남학생의 표준편차는 30명의 표본표준편차인 5.99 이다 모집의 표준편차를 추정할 때 평균의 표집분포의 특성평균의 표집분포의 평균은 모집의 평균(μ)과 같음표집분포의 표준편차(표준오차)의 추정값은 표본평균을 표준화한 검정통계량은 표준정규분포와 유사하지만 차이가 있는 t분포를 따름..
통계적 추론의 이해 통계적 추론 통계적 추론: 표본의 정보를 이용해 모집의 모수를 판단하는 것 표본의 통계량과 표집분포의 특성을 이용함 모수의 값에 대한 추정 (점추정) 모수의 신뢰구간에 대한 추정(구간추정) 모수에 대한 가설 검증(가설검증) 모집평균에 대한 점추정 모집평균에 대한 추정 표본에서 계산할 수 있는 통계량 중 모집평균을 추정하는데 사용할 수 있는 가장 좋은 통계량은? 표집분포의 특성 표본평균의 표집분포의 평균은 모집평균과 같음 모집 평균을 추정할 수 있는 수치는 표본의 평균 중학교 1학년 남학생의 평균키는 30명의 표본 평균인 160.2cm 이다 모집평균 추정의 정확성(신뢰도) 표본평균은 새로운 표본마다 다른 값을 갖게 되며 모집평균의 정확한 추정값이 아님 모집평균 추정의 신뢰성의 정도를 나타내는 수치? 평균의..
Hbase 개요 Hbase는 구글 Bigtable을 모델로 하여 초기 모델 개발(2007년)한, Hadoop 기반의 NoSQL 이다 Bigtable : 매우 큰 규모로 확장이 가능하게 설계된 분산 저장 시스템 Hbase는 물리적인 저장소로 HDFS를 사용해 데이터를 영속적으로 보관하기 때문에 Hadoop이 꼭 설치 및 작동이 되고 있어야 한다. 링크 클릭시 각 hbase 버전에 맞는 hadoop 버전을 확인 할 수 있다. Hbase의 특징 Hbase는 key/value 형식으로 단순한 구조를 갖고 있으며 분산 데이터 저장소이기 때문에 선형적인 확장이 가능해 빅데이터 처리가 가능하다. Hadoop 기반으로, HDFS에 데이터를 영속적으로 보관할 수 있으며, MapReduce를 이용해 데이터를 처리할 수 있다. 데이터를 다..
Apache Hive 개요 및 간단한 실습 ■ 하이브(Apache Hive) 1) 하둡 이전의 (빅)데이터 분석업무를 맡은 사람들은 SQL등을 활용하여 업무를 수행했음 2) 하지만 하둡의 맵리듀스는 애플리케이션을 구현해야 처리 / 분석을 할 수 있었음 3) 그래서 기존의 데이터분석가를 위해 ‘페이스북’이 하이브를 개발 4) 현재는 하둡플랫폼으로 빅데이터를 처리하는 회사에서 다양하게 사용하였음 - 페이스북, 넷플릭스 등 ■ 하이브(Apache Hive)의 개념 1) 하둡 데이터(파일)를 SQL과 비슷한 쿼리를 이용해서 다룰 수 있게 해줌 - 하이브QL 지원 2) DW(Data Warehouse) 어플리케이션에 적합 - 하둡의 기반으로 대량의 데이터를 배치 연산 가능 - 레코드 단위 갱신/삭제 - 트랜잭션 제한적인 지원(0.13 버전 이전에는 아예 ..
표집분포의 이해 표집분포의 이해 모수(Parameter)와 통계량 추론: 주어진 표본으로부터 모집단의 성격을 추측하는 것 모수: 수치로 표현되는 모집단의 특성(모평균, 모분산 등등) 통계량: 표본의 관측값들에 의해 결정되는 표본자료의 특성 추정: 통계량을 사용하여 모수를 추론하는 것 통계량의 특징 표본의 통계량은 모수의 추정치이지만 일반적으로 모수의 참값과 일치 하지 않음 통계량의 값은 추출된 표본에 영향을 받음 같은 크기(표본수)의 표본이라도 새로운 표본을 추출할 때 마다 통계량의 값은 변함 통계량의 확률분포 표집분포 하나의 모집에서 서로 다른 많은 표본이 추출될 수 있음 각 표본마다 계산된 통계량도 서로 다른 값을 갖음 통계량의 값은 그 자체가 확률변수가 됨 통계량들의 분포로 확률분포를 만들 수 있음 하나의 모집에서..
Flume 설치 및 간단한 예제 Flume 설치 - 원하는 계정(필자는 CentOs7 환경에 bigdata계정을 만들어 설치했음)에 Flume 파일 다운 $ wget http://mirror.navercorp.com/apache/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz - 다운 받은 ‘apache-flume-1.8.0-bin.tar.gz’ 파일 압축 풀기 $ tar xvfz apache-flume-1.8.0-bin.tar.gz - root로 로그인 후 /etc/profile 열기 # vi /etc/profile - /etc/profile에 아래와 같이 플룸 바이너리 경로를 입력후 저장 export FLUME_HOME=/home/bigdata/apache-flume-1.8.0-bin export PATH..
Flume 개요 출처: https://flume.apache.org/index.html HDFS에 데이터를 입력할 때 아래와 같은 명령으로 간단히 처리 가능하다. -> $ hdfs dfs –put [디렉토리] 하지만, 이런 경우는 미리 잘 준비된 데이터를 업로드할 때 유용하고 현실에서는 서비스의 로그가 계속 유입이 되고, 즉시/대량으로 HDFS같은 DataStore에 저장되어 분석해야 한다. 데이터를 유실 없이 안정적으로 전송하기 위해 다양한 옵션이 필요한데, Hadoop으로 데이터를 입력하기 위해 간단하고 유연하며 확장이 가능한 솔루션으로서 Apache Flume이 적합하다. 플럼은 데이터 스트림을 수집 / 전송하고 HDFS에 저장할 수 있는 도구 Apache Flume은 2011년에 Cloudera CDH3에 처음으..
하둡 운영 데이터는 SK데이터허브( https://www.bigdatahub.co.kr/index.do)에서 받았음 데이터의 크기: 2.95MB 하둡 구성 호스트 명 하둡2 설치 내용 server01 주키퍼, 액티브 네임노드, 저널노드, 데이터노드, 리소스매니저 server02 주키퍼, 스탠바이 네임노드, 저널노드, 데이터노드, 노드매니저 server03 주키퍼, 저널노드, 데이터노드, 노드매니저 server04 데이터노드, 노드매니저 ■ HDFS 운영 - 네임노드에게 클라이언트는 권한을 받으면 데이터노드에 접근해 데이터 저장 - 데이터는 블록 단위 (기본 64MB 또는 128MB)로 나눠져 저장 - HDFS의 블록 복제수는 기본적으로 3개 - 네임노드는 데이터 노드에 장애가 나면 그 데이터노드의 블록들을 다른 서..