Hadoop
전체 : 13시간 10분 / 강의당평균 : 39분30초
01 hadoop의 소개와 개발 준비
빅데이터/하둡 에코 시스템/ETL/실행모드/리눅스 서버 준비/호스트 파일 수정/인코딩 방식 설정/자바와 하둡 설치
38분
책갈피 : [00:59] 빅데이터의 정의 / [01:38] 빅데이터의 특징 / [01:49] 빅데이터의 3대 요소 / [02:46] 분산 컴퓨팅 솔루션 / [03:14] 속도적인 측면 / [04:00] 장기적 접근 / [04:28] 다양성 측면에서 보기 / [04:38] 정형 데이타 / [05:15] 반정형 데이타 / [05:30] 비정형 데이타 / [07:11] 빅데이터가 중요한 이유 / [08:22] 하둡이란 / [08:35] 하둡 공식사이트 / [08:52] 하둡이 주목을 받는 이유 / [09:28] 하둡 비용 / [09:52] 하둡 장애 대비 / [10:07] 하둡 데이터 처리 / [11:07] 하둡과 관련된 제품 / [12:28] 하둡 1.0 버전 추가된기능 / [13:16] 하둡 에코 시스템 / [14:13] 각 서브 프로젝트의 특징 살펴보기 / [14:20] zoo keeper / [15:18] oozie / [15:41] hbase / [16:25] pig / [16:52] hive / [17:26] mahout / [18:02] hcatalog / [18:37] avro / [18:52] chukwa / [19:30] flume / [20:00] scribe / [20:33] sqoop / [21:03] hiho / [21:30] impala / [21:56] tajo / [22:59] ETL / [23:52] 하둡 개발 준비 / [24:02] 실행모드 결정 / [25:30] 리눅스 서버 준비 / [26:11] 하둡 다운로드 / [27:37] 하둡 실행할 계정 생성 / [29:26] 인코딩 방식 설정 / [30:26] 적용 여부 확인 / [32:22] 설치 파일 실행 / [32:37] 링크 생성 / [33:22] 자바 버전 확인 / [35:07] 하둡 실행 계정으로 로그인 / [35:14] 공개 키 생성 / [36:30] ssh 접속 시도 / [37:15] 파일 압축 풀기
02 개발 준비와 하둡 분산 파일 시스템
하둡 환경설정 파일 수정/하둡 실행/예제 실행/이클립스 설정/프로젝트 빌드/HDFS 기초/HDFS 아키텍처/네임노드와 데이터노드/블록구조 파일시스템
36분
책갈피 : [00:03] 환경 설정 파일 수정 / [00:25] 수정할 여섯개 파일 설명 / [00:28] hadoop-env.sh / [00:59] masters / [01:06] slaves / [01:14] core-site.xml / [01:51] hdfs-site.xml / [02:07] mapred-site.xml / [03:00] hadoop-env.sh 파일 설정 / [04:54] hadoop_home_warn_suppress 옵션 / [05:46] hadoop classpath 옵션 / [06:15] ssh 옵션 / [07:13] masters 파일 설정 / [07:44] slaves 파일 설정 / [08:07] core-site.xml 파일 설정 / [08:56] hadoop.tmp.dir / [09:24] hdfs-site.xml 파일 설정 / [10:15] dfs.http.address / [10:54] mapred-site.xml 파일 설정 / [11:22] 네임노드의 하둡 디렉토리 압축 / [11:58] 압축 파일 데이터 노드로 복사 / [12:09] 압축 파일 해제 / [12:22] 확인 / [12:58] 방화벽 작업 후 실행 / [14:05] 하둡 명령어 호출해서 초기화 / [14:54] 하둡 관련 데몬 실행 / [15:16] 내용 보기 / [15:54] 모든 데몬 중지하기 / [16:03] 각 데몬 별도 실행 / [16:22] jps로 하둡 실행 여부 확인 / [17:52] 하둡을 이용한 간단한 예제 실행 / [19:03] 워드 카운트 실행 / [19:37] 결과 값 확인 / [20:18] 이클립스 설정, 프로젝트 빌드하기 / [20:48] 프로젝트 생성 / [21:03] 정보 설정 / [21:52] 빌드 / [22:45] 빌드 결과 확인 / [22:48] 하둡 분산 파일 시스템 / [23:26] HDFS 기초 / [23:41] DAS / [24:02] NAS / [26:33] HDFS 목표 / [29:14] HDFS 아키텍쳐 / [29:33] 블록구조 파일 시스템 / [32:37] 네임노드와 데이터노드
03 HDFS의 파일 저장 동작방식과 읽기 동작방식
HDFS 기초/HDFS 아키텍처/HDFS 명렁어 사용/클러스터 웹 인터페이스
38분
책갈피 : [00:13] 파일 저장에 대한 동작방식 그림 / [02:23] 데이터 저장시 장애가 발생할 경우 / [03:07] 파일 읽기 / [04:29] 보조 네임 노드 / [04:46] 에디트 로그 / [05:27] 파일 시스템 이미지 / [05:56] 에디트 로그와 파일 시스템 이미지의 동작방식 / [07:08] 보조 네임노드의 역할 / [07:30] 보조 네임노드의 체크 포인팅 과정 / [09:16] 체크포인팅이 완료 될 경우 / [10:41] HDFS 명령어 사용법 / [11:37] 명령어 살펴보기 / [12:18] ls 명령어 / [13:50] lsr 명령어 / [14:18] du 명령어 / [14:56] dus 명령어 / [15:46] cat 명령어 / [16:03] text 명령어 / [16:44] mkdir 명령어 / [17:32] put 명령어 / [18:33] put을 이용해 특정 파일 여러개를 test1 디렉토리에 카피하기 / [19:26] copyFromLocal 명령어 / [19:37] get 명령어 / [21:07] get 명령어를 이용해 여러개의 파일을 로컬로 복사할 경우 / [21:37] getmerge 명령어 / [22:33] cp 명령어 / [23:21] mv 명령어 / [23:59] moveFromLocal 명령어 / [24:26] rm 명령어 / [25:00] rmr 명령어 / [25:45] count 명령어 / [27:06] tail 명령어 / [27:41] chmod 명령어 / [29:21] chown 명령어 / [30:07] chgrp 명령어 / [30:33] touchz 명령어 / [31:03] stat 명령어 / [32:52] setrep 명령어 / [33:52] test 명령어 / [35:00] expunge / [35:44] 클러스터 웹 인터페이스 보기 / [36:37] 링크 보기 / [37:12] Live Nodes / [37:22] Dead Nodes
04 HDFS 입출력과 맵리듀스
HDFS 입출력 예제/맵리듀스 개념/아키텍처/WordCount
37분
책갈피 : [00:04] HDFS 입출력 예제 / [01:03] 클래스 임포트 부분 보기 / [03:07] FsDataOutputStream / [04:08] FsDataInputStream / [04:54] 클래스 수행 / [05:30] 파일 조회 / [05:46] 맵리듀스 / [06:30] 맵리듀스 개념 / [06:43] 맵과 리듀스의 동작 / [07:38] 맵과 리듀스 구조 / [09:18] 아키텍처 / [10:00] 맵리듀스 시스템 구성 / [10:33] 잡트래커 / [12:07] 태스크트래커 / [13:13] 맵리듀스 작동 방식 / [14:24] 입력 스플릿 생성 과정 / [16:15] 잡 할당 과정 / [17:30] 매퍼 실행 부분 / [18:02] 파티셔너 / [18:33] 리듀스태스크 / [20:00] 출력 데이터 저장 / [20:25] 하둡 프로그래밍 요소 살펴보기 / [20:55] Interface WritableComparable / [22:00] Interface Writable / [23:10] 예제 보기 / [23:33] class InputFormat / [24:02] 제공되는 두개의 메소드 보기 / [24:41] 다양한 인풋 포멧 보기 / [25:03] TextInputFormat / [26:03] class NLineInputFormat / [26:45] class SequenceFileInputFormat / [27:15] class SequenceFileAsBinaryInputFormat / [27:41] class Mapper / [28:22] 매퍼 클래스 소스코드 보기 / [29:33] map 메소드 / [29:45] run 메소드 / [30:02] class partitioner / [30:37] getpartition 메소드 / [31:37] class Reducer / [32:51] reduce 메소드 / [33:05] combiner 클래스 개념 / [34:22] class OutputFormat / [35:13] class TextOutputFormat / [36:00] class FilterOutputFormat / [36:15] class LazyOutputFormat
05 WordCount 맵리듀스 프로그램
분석용 데이터/항공 출발 지연 데이터 분석/항공 도착 지연 데이터 분석
36분
책갈피 : [00:04] WordCount 맵리듀스 프로그램 만들기 / [00:37] WordCountMapper 보기 / [01:17] 자세한 소스 보기 / [02:38] context 객체 / [04:00] WordCountReducer 보기 / [05:30] 리듀스 메소드 재정의 / [06:30] 리듀스 메소드 내용 보기 / [07:30] wordcount.java 구현 / [08:28] main 보기 / [09:46] 입출력 데이터 경로 설정 / [10:45] 키와 값의 타입 설정 / [11:41] wordcount 실행 / [12:31] 출력 로그 자세히 보기 / [13:16] 리듀서 클래스 출력 파일 보기 / [14:35] 웹에서 실행 결과 확인하기 / [15:45] 상세 정보 보기 / [16:11] 맵 리듀스 개발 과정 정리 / [17:00] 파라미터 정의 단계 / [17:41] 맵리듀스 기초 / [18:52] 각 프로그램에서 진행되는 내용 살펴보기 / [19:33] 분석용 데이터 준비 / [20:33] 데이터 항목 보기 / [22:52] supplemental data sources / [23:29] 필요한 데이터 다운 / [24:22] 데이터 확인 / [24:41] 압출 풀기 / [25:11] 디렉토리 업로드 후 결과 확인 / [25:18] ls 명령어로 인풋 디렉토리 확인 / [25:41] 항공 출발 지연 데이터 분석 프로그램 만들기 / [26:26] 소스 보기 / [27:21] 맵 메소드 보기 / [28:30] 리듀서 보기 / [29:36] 드라이버 클래스 / [30:37] 드라이버 클래스 실행 / [31:48] 출력 데이터 생성 확인 / [32:37] 항공 도착 지연 데이터 분석 / [33:15] 드라이버 클래스 보기 / [34:00] 실행 / [34:45] 결과 파일 확인 / [35:50] 사용자 정의 옵션 사용
06 맵리듀스 기초
사용자 정의 옵션/카운터 사용/다수의 파일 출력/체인
32분
책갈피 : [00:06] 사용자 정의 옵션 / [01:25] GenericOptionsParser / [03:36] 옵션 사용 예제 / [03:50] -fs 옵션 / [04:15] -D 옵션 / [04:42] -conf 옵션 / [05:30] -jt 옵션 / [06:15] Interface Tool / [06:43] Class ToolRunner / [07:12] 매퍼와 드라이버 구현 / [08:00] 전역 변수 선언 부분 보기 / [08:16] setup 메소드 보기 / [09:03] map 메소드 보기 / [09:54] 드라이버 클래스 보기 / [11:07] 클래스 선언 / [12:52] main에서 run 메소드 호출 / [13:09] 드라이버 클래스 실행 / [14:03] 카운터 사용하는 맵리듀스 프로그램 작성 / [14:11] 로그 보기 / [16:21] 사용자 정의 카운터 보기 / [17:07] 매퍼 소스 보기 / [18:41] 딜레이 카운터 확인 / [19:25] 실행 / [19:41] 카운터 살펴보기 / [20:18] 웹 화면 보기 / [20:41] 다수의 파일 출력 / [21:37] Class MultipleOutputs / [23:15] 매퍼 소스 보기 / [24:17] 리듀서 소스 보기 / [25:07] 리듀스 매소드 보기 / [26:00] 드라이버 클래스 살펴보기 / [26:47] 실행 / [26:56] 출발 지연과 도착 지연 분석 확인 / [27:55] 파일 내용 확인 / [28:17] 체인 / [29:48] Class ChainMapper / [30:02] 매소드 보기 / [30:11] Class ChainReducer / [30:56] 체인으로 구현한 코드 보기 / [31:52] 세번째 매퍼 설정할 경우
07 맵리듀스 정렬 구현
보조 정렬/부분 정렬/전체 정렬
38분
책갈피 : [00:06] 정렬 구현 / [01:19] 지난 시간 예제 결과확인 / [02:15] 보조 정렬 순서 / [03:07] 보조 정렬을 이용한 맵리듀스 프로그램 작성 / [03:22] 복합키란? / [03:50] 복합키 사용 / [04:15] 소스 보기 / [04:43] toString 재정의 / [05:57] 복합키 비교기 보기 / [06:46] compare 메서드 구현 / [08:20] 년도가 일치할 경우 / [08:56] 파티셔너 보기 / [10:03] 그룹키 비교기 구현 / [10:58] 두개의 년도값 비교하는 코드 작성 / [11:09] 매퍼,리듀서,드라이버 클래스 구현 / [11:52] 매퍼 클래스 소스 보기 / [12:09] 리듀서 소스 보기 / [13:13] 리듀스 메서드 보기 / [14:05] 드라이버 클래스 소스 보기 / [14:43] 실행 후 결과 확인 / [15:18] 예전에 실행한 job 보기 / [16:45] 부분정렬 / [16:52] 부분정렬 작동방식 / [17:48] 부분정렬 프로그램 작성 / [18:18] 시퀀스 파일 크리에이터 보기 / [18:41] 주의 사항 / [20:15] 매퍼 구현 뒤 run 메서드 보기 / [21:03] 맵 리듀스 파일 실행 / [21:52] 시퀀스 파일 생성 확인 / [22:47] 맵 파일 생성 소스 보기 / [24:22] job 실행 단계 / [24:51] 출력 결과 조회 / [25:11] 데이터 파일에 키와 값이 저장돼 있는지 확인 / [25:48] 검색 프로그램 구현 / [27:32] 해쉬파티셔너로 생성하는 이유 / [28:36] 실행 / [29:29] 로그 파일 제거 / [29:48] 전체 정렬 / [30:33] 전체 정렬 순서 / [31:14] 주의 사항 / [32:05] 전체 정렬 작동 방식 / [32:42] 예제 보기 / [34:07] 파티션 구성 정의 / [34:37] InputSampler 종류 / [36:05] 분산 캐시에 파티션 정보 등록 / [36:21] 실행 후 결과 확인 / [37:06] 정렬 확인
08 조인과 맵리듀스 튜닝
주인 구현/조인 준비/맵-사이드 조인/리듀스-사이드 조인/셔플 튜닝/
40분
책갈피 : [00:07] 조인 / [00:32] 조인을 위한 파일 내려받기 / [01:26] 맵-사이드 조인 / [02:12] 분산캐시 / [03:50] 분산캐시의 작동 방식 / [05:00] Class DistributedCache / [05:09] DistributedCache 사용 방법 / [05:46] 잡 컨프 셋업 / [06:29] 매퍼나 리듀서에서 분산캐시에 등록될 파일 사용과정 / [06:46] 매퍼 구현 / [09:15] 항공사 데이터 보기 / [10:16] 드라이버 클래스 소스 보기 / [11:20] 드라이버 클래스 실행 / [11:46] 출력데이터 조회 / [13:09] 리듀스-사이드 조인 / [13:28] 리듀스-사이드 조인 데이터 흐름 / [15:20] MultipleInputs / [15:45] 데이터보기 / [16:56] 소스 보기 / [18:25] 두번째 매퍼 보기 / [19:11] 두번째 매퍼 소스 보기 / [19:47] 리듀서 소스 보기 / [21:30] 드라이버 클래스 구현 부분 보기 / [22:07] 실행 / [22:44] 출력 경로 조회 / [23:37] 세미 조인 / [23:52] 맵리듀스 튜닝 / [25:15] 셔플 / [25:56] 셔플 작업 과정 자세히 살펴보기 / [26:07] 맵 / [26:37] 스필 / [27:56] 병합 / [28:52] 복사 / [30:11] 파일로 저장되는 두가지 특정 경우 / [31:03] 정렬 / [32:07] 리듀스 / [33:43] 테스트 / [34:04] 잡 실행 / [34:59] 수정된 명령 보기 / [35:15] 중간 과정 보기 / [36:45] 결과 비교 / [37:42] 각 카운터 비교 / [38:07] 카운터 정보 보기 / [39:34] 주의할 점
09 맵리듀스 튜닝과 하둡 운영
콤바이너 클래스 적용/맵 출력 데이터 압축/DFS 블록 사이즈 수정/JVM 재사용/투기적 잡 실행/네임노드 HA 구성/파일시스템 상태 확인/HDFS 어드민 명령어
44분
책갈피 : [00:05] 콤바이너 클래스 적용 / [00:33] 소스 보기 / [01:07] 드라이버 클래스 실행 / [01:34] 구체적인 결과 확인 / [02:38] 맵 출력 데이터 압축 / [04:15] 소스 보기 / [05:10] 실행 / [05:15] gzip 적용 전과 후 비교 / [05:30] snappy / [06:00] snappy 최신 버전 다운 / [06:11] snappy 설치 / [06:46] ArrivalDelayCount에 snappy 적용 / [07:46] DFS 블록 사이즈 수정 / [09:54] distcp 옵션 이용 / [11:05] 결과 조회 / [11:48] 32메가로 생성된 파일을 이용해 데이터 처리하기 / [11:54] 드라이버 클래스 실행 / [12:11] 결과 확인 / [12:43] 결과 비교 / [13:43] mapred-site.xml에서 제공하는 두개의 파라미터 / [15:58] JVM 재사용 / [18:00] 투기적 잡 실행 / [19:48] 투기적 잡 실행 파라미터 보기 / [21:56] 개별적인 잡에 대한 투기적 잡 실행 / [22:37] 하둡 운영 / [22:48] 네임노드의 HA 구성 / [24:22] 하둡과 관련된 다양한 HA 구성방법 / [25:00] 페이스북의 아바타노드 / [26:11] 아바타노드를 이용한 네임노드 HA / [26:48] 백업 아바타 노드 / [28:03] 클라이언트와 주키퍼 사이의 관계 / [29:45] 파일시스템 상태 확인 방법 / [30:15] fsck 명령어 실행 / [30:48] 생성자 로그의 정보 보기 / [31:15] over-replicated blocks / [31:26] under-replicated blocks / [31:48] mis-replicated blocks / [33:43] 벨런스 명령어 / [34:52] HDFS 명령어 사용 / [35:21] -report 옵션 사용 / [35:30] 결과 확인 / [36:42] HDFS 동작 방식 / [37:44] -safemode / [38:45] -saveNamespace 옵션 / [39:20] 실행 / [40:21] 로그 보기 / [41:07] 파일 저장 갯수 설정 / [41:36] 디렉토리 생성 / [41:45] -setQuota 입력 / [42:14] 파일 풋 하기 / [43:30] 파일 저장 용량 설정 방법
10 하둡 운영
데이터 저장공간 관리/데이터노드 제거 및 추가/네임노드와 데이터노드 장애복구/하둡 사용자 관리/하둡 주요 포트
43분
책갈피 : [00:02] 데이터 저장공간 관리 / [00:24] 경로 관련 주요 설정값 / [00:33] hadoop.tmp.dir / [00:40] fs.checkpoint.dir / [01:07] dfs.name.dir / [01:34] dfs.data.dir / [02:00] mapred.local.dir / [02:27] mapred.system.dir / [04:00] core-site.xml 보기 / [04:30] 데이터노드 제거/데이터노드 추가 / [06:15] hdfs-site.xml 파일 내용 보기 / [07:12] 데이터 노드 제거 시 주의사항 / [08:03] -refreshNodes 명령어 / [09:09] 데이터 노드 추가 방법 / [11:46] hdfs-site.xml 내용 보기 / [12:35] 에러가 나는 이유 / [13:24] 네임노드 장애 복구 / [15:07] 구조 보기 / [16:07] current 밑에 파일 설명 / [17:11] 보조 네임노드 구조보기 / [17:52] 보조 네임노드를 이용한 네임노드 장애 복구 / [18:30] 오류 내용 보기 / [20:37] 디렉토리 생성 / [21:00] 네임노드 실행 / [21:37] 하둡 전체 데몬 재실행 / [22:22] NFS 를 이용한 장애 복구 / [22:36] 네임노드 메타데이타 이중화 / [22:48] 백업서버 준비 / [23:32] hdfs-site.xml 설정 파일 수정 / [23:56] 하둡 재구동 / [24:11] 장애시 복구 순서 / [25:48] 데이터노드 장애 복구 / [26:56] 하둡 사용자 관리 / [28:56] 하둡 주요 포트 / [29:51] 하둡 싸이트에서 보기 / [30:10] hdfs-site.xml 보기 / [32:28] mapred-default.xml 보기 / [33:35] 하둡 부가기능 / [34:15] 하둡 스트리밍 / [34:52] 하둡 스트리밍 사용 방법 / [35:22] 하둡 설명 보기 / [37:29] 하둡 스트리밍 실행 옵션 보기 / [38:35] 필수는 아닌 옵션 보기 / [39:05] -inputformat / [39:15] -outputformat / [39:29] -partitioner / [40:45] -verbose / [41:20] 제너릭 옵션 설명 / [41:30] -conf / [41:45] -D / [42:07] -fs / [42:22] -jt / [43:00] -archives
11 하둡 부가기능
하둡 스트리밍/스트리밍 실행 옵션/스틀리밍 구현/잡스케줄러
37분
책갈피 : [00:02] 하둡 스트리밍 구현 / [01:07] 첫번째 job 구현 / [01:45] 내용 보기 / [03:21] 스트리밍 실행 / [03:38] hadoop Map/Reduce Administration 보기 / [03:53] Failed job 상세 보기 / [04:15] 에러 부분 보기 / [05:56] 명령어 파이프라인 사용 / [06:23] 스크립트 파일로 명령어 작성 / [07:00] 출력 결과 보기 / [07:26] 두번째 job 구현 / [10:01] 실행 / [10:16] 출력 데이터 확인 / [10:35] 파이썬을 이용한 스트리밍 구현 / [11:22] 매퍼 역할을 할 스크립트 / [11:46] 내용 보기 / [13:18] ArrivalDelayReducer.py 보기 / [15:11] 하둡 스트리밍 실행 / [16:03] 주의사항 / [16:51] 결과 파일 조회 / [17:06] aggregate 패키지 이용 / [17:22] 주요 클래스 보기 / [18:56] 스트리밍에서 이용하기 / [19:40] 파이썬 소스 보기 / [20:18] 스트리밍 실행 화면 / [20:56] 결과 파일 조회 / [21:07] 히스토그램 값 구하기 / [21:41] 실행 화면 보기 / [22:22] 출력 결과 보기 / [22:52] 잡 스케줄러 / [24:06] 페어스케줄러 / [24:52] 페어스케줄러 설치 / [26:10] 하둡의 환경 설정 파일 수정 / [26:55] 추가된 속성 보기 / [27:41] 하둡 도큐먼트에서 속성 보기 / [30:36] Advanced Parameters 보기 / [33:28] 풀 설정 파일 정의 / [34:05] 각 풀에 대한 정의 / [34:59] 속성 정의 / [36:09] 전체에 대한 속성 보기
12 하둡 부가기능과 하이브
페어스케줄러/커패시티 스케줄러/contrib 패키지/하이브 아키텍처/하이브 설치/하이브QL/하이브 칼럼 타입
39분
책갈피 : [00:08] 페어 스케줄러 적용 / [00:20] job 수행되는 시간 확인 / [01:48] 하둡 클러스터에 페어 스케줄러 적용 / [02:07] job 트래커 재구동 / [02:36] Fair Scheduler Administration 보기 / [04:00] 성능 비교 / [04:59] Map/Reduce History Viewer로 결과 확인 / [06:30] 커패시티 스케줄러 / [08:07] jar 파일 빌드 / [08:43] mapred-site.xml 변경 / [09:05] 커패시티 스케줄러 적용 / [09:58] job 트래커 재구동 / [10:11] 환경 설정 파일로 queue에 대한 설정하기 / [10:58] capacity-scheduler.xml 보기 / [11:31] 속성값 살펴보기 / [12:03] maximum-capacity / [12:20] supports-priority / [12:33] minimum-user-limit-percent / [14:20] queueA 와 queueB 에 대한 설정 보기 / [15:18] mapred-queue-acls.xml 보기 / [15:31] acl / [16:30] queue에 대한 접근 권한 설정 / [18:03] queueA와 queueB 설정화면 / [18:26] 관리 화면에서 queue 조회 / [19:07] 스케줄링 인포메이션 보기 / [19:41] 커패시티 스케줄러 사용 / [20:37] 실행 / [21:36] 하이브 / [22:21] 하이브 아키텍처 / [23:56] 구성요소 보기 / [24:26] 패키지 다운로드 / [25:22] 여러 환경설정 파일 템플릿 보기 / [25:52] 하둡의 홈 디렉토리 설정 / [26:56] hive-default.xml 속성값 보기 / [27:10] hive.metastore.warehouse.dir / [27:25] hive.exec.scratchdir / [27:48] ConnectionURL / [28:17] ConnectionDriverName / [28:37] ConnectionUserName / [29:29] hdfs에 경로 생성 / [30:37] 실행 / [30:56] 하이브 QL과 SQL과의 차이점 / [32:45] 하이브 QL 쿼리문 작성 / [33:19] 테이블 생성 내용 / [33:45] 하이브 칼럼 타입 / [34:07] create table 명령문 보기 / [36:28] 실행 결과 보기 / [36:35] external 키워드 추가 / [37:35] describe 명령어 / [38:22] drop 테이블
13 하이브QL과 하둡 적용
데이터업로드/하이브 내장집계함수/하이브 내장함수/조인/조인 제약사항/버킷활용/하둡과 몽고디비 이용/히둡 에코시스템 활용한 분석 플랫폼 구축/빅데이터 기술 이용한 소셜 네트워크 데이터 분석
40분
책갈피 : [00:09] 데이터 업로드 / [00:39] 첫번째 라인 삭제한 이유 / [01:11] 데이터 업로드 화면 보기 / [02:07] hdfs 조회 / [02:35] 데이터 정상 등록 확인 / [04:00] 하이브 내장 집계 함수 / [05:00] count(1) / [05:30] 결과 확인 / [06:00] AVG / [06:42] 하이브 주요 내장함수 / [08:18] regexp_replace / [10:22] get_json_object / [10:58] cast / [11:28] language manual 보기 / [11:56] 조인 / [12:52] 항공운항 지연 데이터와 항공사 코드 테이블 조인 / [13:48] 데이터 업로드 / [14:07] 조인하기 / [15:03] 실행 결과 확인 / [15:18] 두개 이상의 테이블 내부 조인으로 처리하기 / [16:22] 조인 쿼리 작성 / [17:37] 외부 조인 테스트 / [18:33] 외부 조인 쿼리 실행 / [19:37] 버킷 활용 / [20:41] 버킷 활용 예제 보기 / [21:11] 데이터 insert / [22:03] 실행 결과 확인 / [22:55] 버킷 활용시 주의점 / [23:11] 하둡의 적용 사례 / [23:56] 하둡과 몽고디비 이용 / [24:55] 스토리지 사용 추이 데이터 보기 / [25:45] 몽고디비 살펴보기 / [26:26] 완전 분산 모드 구성 예 / [27:22] 하둡과 몽고디비 테스트 결과 / [29:25] 몽고디비 결과 / [30:45] 최종 시스템 구성 / [31:37] 하둡 에코시스템 활용한 분석 플랫폼 구축 사례 / [33:06] 분석 플랫폼의 요구사항 / [33:19] 경제성 확보 / [33:35] 동일한 처리 결과 확보 / [33:52] 확장성과 실시간성 확보 / [34:22] 새로운 데이타 분석 기법에 대한 수용력 확보 / [35:22] 분석 시스템 구성 / [37:00] 빅데이터 기술을 이용한 소셜 네트워크 데이터 분석 사례 / [37:37] sns 데이터 분석 시스템 구성 / [37:51] 각 구성요소 역할 보기
14 하둡 데이터 이동 part1
인그레스/이그레스/플룸 아키텍처/스크라이브 아키텍처/추크와 아키텍처/하둡에 로그파일 집어넣기
37분
책갈피 : [00:05] 하둡 데이터의 이동 / [00:54] 하둡 데이터 인그레스 및 이그레스 / [02:15] 자동화 / [03:23] 주요 인그레스 및 이그레스 고려 요소 / [03:38] 멱등성 / [04:25] 취합 / [04:57] 데이터 형식 변형 / [06:00] 복구 가능성 / [06:29] 정확성 / [07:15] 리소스 소비 및 성능 / [08:03] 모니터링 / [08:41] 하둡으로 데이터 옮기기 / [08:45] 하둡에 로그파일 집어넣기 / [09:28] 플룸 아키텍처 / [10:05] 추크와 아키텍처 / [10:54] 스크라이브 아키텍처 / [11:41] 추크와, 플룸과 스크라이브의 차이점 / [12:11] 하둡으로 데이터를 옮길때 쓸수 있는 주된 방법 / [12:50] 플룸을 활용한 hdfs의 시스템들의 로그 수집 방법 / [13:41] 전체 플룸 배포 환경 / [14:35] 플룸 설치 관련 페이지 보기 / [15:22] 인스톨 방법 / [15:41] 플룸 실행 방법 / [16:25] 플룸 설치 모습 보기 / [16:41] conf 디렉토리 가기 / [17:25] 플룸 마스터 데몬 시작 / [17:55] 플룸 노드 데몬 시작 화면 / [18:07] 호스트 / [18:15] 플룸 에이전트 / [18:44] 플룸 컬렉터 / [20:14] lgo 압축을 이용해 클러스터를 설정한 경우 / [21:07] 컬렉터로 노드 실행 / [21:55] 플룸 마스터에서 설정 변경하는 방법 / [22:07] UI를 사용한 설정법 / [24:22] 마스터 페이지 보기 / [25:18] flume shell 실행 / [26:18] 핵심 개념 살펴보기 / [26:32] 플룸 데이터 소스 / [27:11] 플룸 소스 카탈로그 / [29:30] 에이전트 싱크 / [29:56] 데이터싱크 안정성 모드 / [30:52] 장애극복 모드 / [32:07] 사용가능한 에이전트 싱크 / [32:51] 플룸 유저가이드 보기 / [33:45] 플룸 컬렉터 데이터 싱크 / [34:50] output Bucketing 항목 보기 / [35:09] 출력 포맷 보기
15 하둡 데이터 이동 part2
반구조화된 데이터 및 바이너리 파일 집어넣고 가져오기/파일슬러퍼/우지/데이터베이스로부터 데이터 풀링/맵리듀스활용/스쿱
45분
책갈피 : [00:23] 반구조화된 데이터 및 바이너리 파일 집어넣고 가져오기 / [01:32] 파일 슬러퍼 / [01:49] 파일 슬러퍼 사용 예제 / [02:30] 슬러퍼 환경 설정 파일 / [03:30] 예제를 통해 내용 살펴보기 / [05:40] 슬러퍼 실행 부분 / [06:00] 슬러퍼의 중요한 특징 / [06:46] 두번째 예제 보기 / [08:33] 슬러퍼에서 사용하는 대상 디렉토리 밑 파일 명을 동적으로 제어하는 방법 / [09:03] 세번째 예제 보기 / [11:09] 결과 로그 확인 / [12:20] 우지를 활용한 정기적인 인그레스 활동 예약 / [13:35] 우지 란? / [14:28] 우지에서 사용하는 조율기의 xml 설정파일 / [14:48] coordinator.xml 파일 내용 보기 / [15:58] 실제 작업 흐름 보기 / [16:48] workflow.xml 파일 내용 보기 / [18:03] 속성 파일 정의 / [18:26] 내용 보기 / [19:21] job 중단 하기 / [19:52] 데이터베이스로부터 데이터 풀링하기 / [20:30] 하둡의 역할 / [21:26] 내장 맵리듀스 클래스 사용법 / [21:33] DBInputFormat 사용 / [22:11] 예제 살펴보기 / [22:44] 스트링 배열 보기 / [22:51] readFields 메서드 보기 / [23:33] 맵리듀스 job 소스 보기 / [24:07] runJob 메서드 보기 / [25:26] DBInputFormat.setInput 보기 / [25:45] 맵 클래스 보기 / [26:14] DB 구조 살펴보기 / [26:52] DBImportMapReduce 실행 / [27:41] avro 파일의 내용 / [28:03] DBInputFormat 사용시 몇가지 주의 사항 / [29:37] 스쿱 불러오기 / [30:00] 스쿱이란? / [30:37] 커넥터 / [31:37] 스쿱 명령 사용하기 / [32:30] 스쿱 실행 전 주의점 / [33:35] 실행 결과 보기 / [34:15] 대용량의 데이터 불러올 경우 / [34:57] 압축 파일 사용시 주의점 / [35:15] 예제 살펴보기 / [36:13] 쿼리 보기 / [36:58] 두가지 예제 더 보기 / [37:45] 고속 커넥터 / [38:15] 스쿱을 활용해 데이터를 하이브 테이블로 불러오기 / [39:37] 서로 다른 하이브 파티션 생성하기 / [40:52] HBase / [41:34] HBase Shell 명령어 보기 / [42:57] 맵 리듀스의 데이터 소스로서 HBase를 사용하는 경우 / [43:46] 기본 설정 값 확인
16 하둡 데이터 이동 part3
하둡 밖으로 데이터 옮기기/로컬 파일시스템으로의 이그레스/데이터베이스/HBase/하이브를 활용한 데이터 분석/로그 파일 로딩/UDF 및 압축 파티션 테이블 쓰기
40분
책갈피 : [00:08] 하둡 밖으로 데이터 옮기기 / [01:33] 하둡에서 관계형 데이터 베이스로 데이터를 쓰는 방법 / [02:44] 작업 과정 보기 / [03:30] export-dir 인자 / [04:00] 예제 보기 / [05:00] 스쿱의 옵션 / [05:15] input-enclosed-by / [05:27] input-escaped-by / [05:45] input-fields-terminated-by / [05:55] input-lines-terminated-by / [06:30] 멱등적 내보내기 / [07:45] 고속 커넥트를 이용해 직접 내보내기 예제 / [08:35] mysql import를 활용한 멱등적 내보내기 예제 / [09:35] HBase로 데이터 옮기기 / [10:03] HBase shell 에서 테이블 만들기 / [11:22] hbase 데이터 싱크 활용하기 / [12:54] 메인 보기 / [13:24] 맵 리듀스 잡 실행 / [14:37] 하이브 활용 / [15:01] 하이브 활용 예제 살펴보기 / [16:29] 직렬화 및 역직렬화(SerDe) / [17:37] 직렬화 및 역직렬화 동작 살펴보기 / [18:03] 테이블 생성 / [19:22] 테이블 조회 / [19:45] 정규식 작성시 주의할점 / [20:11] 역직렬화의 과정 / [21:41] RegexSerDe 작동 보기 / [22:15] RegexSerDe class / [24:06] deserialize 코드보기 / [24:37] 하이브 직렬화 인터페이스 보기 / [24:56] getSerializedClass 살펴보기 / [25:11] Serialize 살펴보기 / [26:44] udf 및 압축 파티션 테이블 쓰기 / [27:33] hiveql 보기 / [29:03] 로그테이블로 부터 udf 사용하기 / [29:37] 명령 보기 / [30:11] 버킷 설정 두가지 방법 / [32:06] insert 문 보기 / [33:29] hive_default_partition / [33:52] 출력값 살펴보기 / [34:07] 테이블의 레이아웃 구조 보기 / [35:22] 버켓팅을 하는 이유 / [36:22] udf 두가지 작성 방법 / [37:00] udf 클래스 살펴보기 / [37:52] 질의 위치 udf 소스 보기 / [38:50] evaluate 메서드 보기 / [39:45] description 보기
17 하이브 활용과 피그
하이브를 활용한 데이터 분석/하이브 조인 튜닝/그루핑, 정렬, Explain/피그 기본/피그로 데이터 로드
44분
책갈피 : [00:05] 하이브 조인 튜닝 / [01:17] 조인 작업 속도 높이는 옵션 보기 / [01:26] 리파티션 조인 / [02:07] 테스트 테이블 보기 / [03:35] outer join 보기 / [03:53] left outer join / [04:42] right outer join / [05:15] Full outer join / [06:13] 복제 조인 / [07:30] 맵 사이드 조인 수행 조건 / [08:50] 하이브의 자동 복제 기능 활성화 / [10:50] 세미 조인 / [11:28] skewjoin / [13:03] 그루핑, 정렬, explain / [14:26] explain 키워드 / [14:41] explain 출력값 보기 / [15:58] 스테이지 계획 / [16:56] viewed_movies / [17:03] 입력 부분 보기 / [17:21] 리듀스 출력 값 확인 / [19:45] 피그 / [21:21] 피그 기본 / [21:48] piggybank / [22:41] 피그 설치 뒤 테스트 / [23:33] 피그 아키텍처 / [24:21] 피그 라틴 / [24:48] 피그 라틴 데이터 타입 보기 / [25:36] dump 명령어 사용 예 / [26:44] describe / [27:03] 연산자와 함수 / [28:10] load 함수 / [28:37] 평가 함수 / [29:11] 필터 함수 / [29:45] 저장 함수 / [30:15] 인터렉티브 및 비인터렉티브 피그 / [31:33] 고급 피그 기법 / [31:52] 악의적 웹사이트 사용을 찾기 위한 피그 파이프라인 / [32:14] 데이터 로드 / [33:52] 완전한 기능을 갖춘 로그 로더 제공 방법 / [35:04] 간단한 문자열 토큰화 / [36:22] 소스 보기 / [36:50] 메서드 살펴보기 / [38:22] setTuple 메서드 / [40:00] 로드 하기 / [40:52] 내용 보기 / [41:12] 간단한 연산 수행 / [41:59] 커먼 로그 로드 펑션을 사용해 로드 하는 법 알아보기
18 피그
피그 파이프라인/필터링 및 투영/UDF 그루핑 및 취합/UDF 활용 위치 찾기/스트리밍/조인/정렬/데이터저장
42분
책갈피 : [00:57] 필터링 / [01:11] 투영 / [01:29] 투영 과정 / [02:07] 필터링 과정 / [03:50] 데이터에 정교한 필터링 적용하기 / [04:30] 내용 보기 / [05:41] 필터링 적용 / [06:55] 그루핑 / [07:46] 필터 연산 결과로 ip 주소별로 로그 엔트리 그루핑하고 계산하기 / [08:09] 그룹 결과 보기 / [09:15] 횟수 세기 / [09:35] 결과 확인 / [10:11] 예제 살펴보기 / [11:01] 결과 확인 / [12:18] 대수 함수 / [12:48] getInitial / [12:56] getIntermed / [13:01] getfinal / [13:41] 예제 보기 / [14:13] explain 결과 보기 / [15:39] accumulater 함수 / [16:32] 작업 상황 확인 / [17:10] evalFunc / [17:33] 단순 / [17:48] 취합 / [18:37] 대수 / [19:22] 집적 / [20:10] 로그 파일에서 특정 ip의 위치를 판단하고 싶을때 / [21:03] 소스 보기 / [22:56] exec 메소드 / [23:41] 입력 타입 지정 / [24:07] udf 실행 / [25:37] 소스 보기 / [26:33] 문자 형태와 숫자 형태 아이피 모두 지원하는 방법 / [27:52] funclist.add 부분 보기 / [28:41] 지원하지 않는 타입의 udf를 사용할 경우 / [29:18] 스트리밍 / [30:11] 맵리듀스와 연계한 피그의 스트리밍 흐름 / [30:37] 스트리밍 피그 인터페이스 / [31:11] 스크립트 내용 보기 / [33:07] 조인 / [34:52] using 'replicated' / [35:07] 정렬 / [36:05] 저장 / [36:30] 시퀀스 파일로 저장하는 이유 / [36:45] 시퀀스 파일 스토어 펑션 / [39:06] outputFormat / [40:07] 출력값 쓰기 / [40:49] 파일 읽어오기 / [41:07] 커스텀 로드 펑션 실행
19 피그와 그런치 및 그 외 기술
사용자 작업 흐름 최적화/LIMIT/SAMPLE/ILLUSTRATE/EXPLAIN/성능/그런치
40분
책갈피 : [00:57] 사용자 작업 흐름 최적화 / [01:34] LIMIT / [01:38] SAMPLE / [01:47] ILLUSTRATE / [02:07] DESCRIBE / [02:23] LIMIT 연산자 사용법 / [04:25] SAMPLE 연산자 사용법 / [05:13] RandomSampleLoader / [05:41] RandomSampleLoader 인자 보기 / [05:46] ILLUSTRATE 연산자 사용법 / [07:30] EXPLAIN 연산자 사용법 / [08:43] 예제 보기 / [09:11] Logical Plan / [10:28] status 보기 / [11:22] physical Plan / [12:01] Map Reduce Plan / [12:39] -dot 옵션과 함께 실행하기 / [13:43] 피그의 성능 / [14:56] 필터 예제 / [15:46] 조인 최적화 / [16:22] 샘플링과 리밋 예제 / [16:45] 대수 및 누적 UDF 사용 방법 / [17:48] 연산병합 / [18:14] 복제조인 및 스큐조인 / [19:40] 다중리듀서 / [20:29] PARALLEL 키워드 / [20:51] default_parallel 키워드 / [21:15] MapRed-site.xml의 MapRed.reduce.tasks / [21:41] 피그에서 리듀서를 사용하는 연산자 / [22:36] 크런치 및 그 외 기술 / [23:56] 크런치 / [24:26] 데이터 컬렉션 / [24:37] 타입매핑 시스템 / [24:55] 컬렉션 조작 연산 / [25:22] 파이프라인 클래스 메서드 보기 / [26:37] 컬렉션 다이어그램 / [27:55] 각 컬렉션 클래스의 연산 / [29:33] dofn 클래스 / [29:52] configure 메서드 / [30:07] initialize 메서드 / [30:11] process / [30:22] cleanup / [31:00] 커스텀 연산 정의 / [32:27] 텍스트 파일 토큰화를 위한 크런치 파이프라인 / [33:22] simpleTokenize 클래스 / [34:30] process 메서드 / [35:52] 크런치에서 완전한 맵 리듀스 잡 실행하기 / [36:22] 역 인덱스 생성하는 크런치 코드 / [37:07] 함수 살펴보기 / [38:34] uniqueValues 메서드 살펴보기
20 데스트와 디버깅
로그에서 가장 인기있는 URL 찾기/조인/케스케이딩/튜플, 파이프, 탭/테스트/사용자 공간 문제 디버깅/맵리듀스 주의 사항
44분
책갈피 : [00:03] 로그에서 가장 인기있는 URL 찾기 / [00:57] popularlinks 소스 보기 / [02:59] initialize를 통한 선언 초기화 /[03:29] 예외처리 / [04:00] 에러처리 부분 보기 / [04:56] 필터링 및 투영 관련 작업 / [05:30] 실행 결과 보기 / [05:44] 조인 / [06:46] 크런치 조인 파이프라인 / [07:14] 유저와 로그를 조인하는 클래스 소스 보기 / [08:11] 로그 문자열을 테이블로 변환하는 함수 호출 / [09:05] 조인할때 중요한 점 / [10:26] 조인 실행 결과 / [10:46] 캐스케이딩 / [11:16] 캐스케이딩을 활용한 소스 / [13:11] count / [13:43] flowconnector / [14:41] 테스트와 디버깅 / [15:33] 테스트 요소 살펴보기 / [15:50] 테스트 주도 개발 / [16:32] 코드 설계 / [17:07] 예제 살펴보기 / [18:02] 테스트 데이터 / [19:00] MRUnit 을 이용한 단위 테스트 작성 / [19:56] 맵 테스트 작성 / [21:32] withInput 메서드 / [22:07] 주의할 점 / [23:02] 결과 보기 / [23:44] MRUnit 을 이용하고, 실패시 제이유닛에서 제공하는 정보도 활용할 경우 / [24:07] run 메서드 / [25:40] MRUnitJUnitAsserts 클래스 보기 / [26:52] 맵 및 리듀스 함수 함께 테스트 하는 방법 살펴보기 / [28:11] 파이프 라인 테스트 살펴보기 / [29:56] 사용자 공간 문제 디버깅 / [30:18] 로그 살펴보기 / [31:18] ui에 접근할수 없는 경우 / [32:06] 테스크 출력 값 보기 / [33:52] 코드가 오작동 하게 만드는 입력 데이터 따로 떼어내기 / [35:37] 히스토리 결과 보기 / [37:15] 맵리듀스 주의 사항 / [37:44] 지나치게 많은 캐시 / [38:43] 큰 입력 레코드 / [39:34] 지나치게 많은 외부 리소스 / [40:14] 투기적 실행 경쟁 조건 / [41:14] 잘못된 입력 값 처리안함 / [41:52] 하둡 버전 및 설정이 다른 클러스터 / [42:27] 대규모 데이터셋 테스트 및 디버깅 / [43:00] 파싱 및 로직 에러의 미처리 / [43:21] 지나치게 많은 카운터
샘플확인 : 알지오 검색후 -> 강의검색란 -> Hadoop
'학과 샘플강의' 카테고리의 다른 글
프레지 전체 6시간 23분 강의당평균 38분17초 (0) | 2016.04.22 |
---|---|
델파이 전체 14시간 51분 강의당평균 44분32초 (0) | 2016.04.22 |
nx7 전체 7시간 47분 강의당평균 23분21초 (0) | 2016.04.22 |
motion5 전체 13시간 28분 강의당평균 40분23초 (0) | 2016.04.22 |
MFC programming 전체 11시간 50분 강의당평균 35분30초 (0) | 2016.04.22 |