Hadoop - 총 13시간 10분 / 강의당평균 : 39분30초

학과 샘플강의

Hadoop - 총 13시간 10분 / 강의당평균 : 39분30초

알지오 2016. 9. 21. 09:15

Hadoop

전체 : 13시간 10분 / 강의당평균 : 39분30초

01 hadoop의 소개와 개발 준비

빅데이터/하둡 에코 시스템/ETL/실행모드/리눅스 서버 준비/호스트 파일 수정/인코딩 방식 설정/자바와 하둡 설치

38분

책갈피 : [00:59] 빅데이터의 정의 / [01:38] 빅데이터의 특징 / [01:49] 빅데이터의 3대 요소 / [02:46] 분산 컴퓨팅 솔루션 / [03:14] 속도적인 측면 / [04:00] 장기적 접근 / [04:28] 다양성 측면에서 보기 / [04:38] 정형 데이타 / [05:15] 반정형 데이타 / [05:30] 비정형 데이타 / [07:11] 빅데이터가 중요한 이유 / [08:22] 하둡이란 / [08:35] 하둡 공식사이트 / [08:52] 하둡이 주목을 받는 이유 / [09:28] 하둡 비용 / [09:52] 하둡 장애 대비 / [10:07] 하둡 데이터 처리 / [11:07] 하둡과 관련된 제품 / [12:28] 하둡 1.0 버전 추가된기능 / [13:16] 하둡 에코 시스템 / [14:13] 각 서브 프로젝트의 특징 살펴보기 / [14:20] zoo keeper / [15:18] oozie / [15:41] hbase / [16:25] pig / [16:52] hive / [17:26] mahout / [18:02] hcatalog / [18:37] avro / [18:52] chukwa / [19:30] flume / [20:00] scribe / [20:33] sqoop / [21:03] hiho / [21:30] impala / [21:56] tajo / [22:59] ETL / [23:52] 하둡 개발 준비 / [24:02] 실행모드 결정 / [25:30] 리눅스 서버 준비 / [26:11] 하둡 다운로드 / [27:37] 하둡 실행할 계정 생성 / [29:26] 인코딩 방식 설정 / [30:26] 적용 여부 확인 / [32:22] 설치 파일 실행 / [32:37] 링크 생성 / [33:22] 자바 버전 확인 / [35:07] 하둡 실행 계정으로 로그인 / [35:14] 공개 키 생성 / [36:30] ssh 접속 시도 / [37:15] 파일 압축 풀기

02 개발 준비와 하둡 분산 파일 시스템

하둡 환경설정 파일 수정/하둡 실행/예제 실행/이클립스 설정/프로젝트 빌드/HDFS 기초/HDFS 아키텍처/네임노드와 데이터노드/블록구조 파일시스템

36분

책갈피 : [00:03] 환경 설정 파일 수정 / [00:25] 수정할 여섯개 파일 설명 / [00:28] hadoop-env.sh / [00:59] masters / [01:06] slaves / [01:14] core-site.xml / [01:51] hdfs-site.xml / [02:07] mapred-site.xml / [03:00] hadoop-env.sh 파일 설정 / [04:54] hadoop_home_warn_suppress 옵션 / [05:46] hadoop classpath 옵션 / [06:15] ssh 옵션 / [07:13] masters 파일 설정 / [07:44] slaves 파일 설정 / [08:07] core-site.xml 파일 설정 / [08:56] hadoop.tmp.dir / [09:24] hdfs-site.xml 파일 설정 / [10:15] dfs.http.address / [10:54] mapred-site.xml 파일 설정 / [11:22] 네임노드의 하둡 디렉토리 압축 / [11:58] 압축 파일 데이터 노드로 복사 / [12:09] 압축 파일 해제 / [12:22] 확인 / [12:58] 방화벽 작업 후 실행 / [14:05] 하둡 명령어 호출해서 초기화 / [14:54] 하둡 관련 데몬 실행 / [15:16] 내용 보기 / [15:54] 모든 데몬 중지하기 / [16:03] 각 데몬 별도 실행 / [16:22] jps로 하둡 실행 여부 확인 / [17:52] 하둡을 이용한 간단한 예제 실행 / [19:03] 워드 카운트 실행 / [19:37] 결과 값 확인 / [20:18] 이클립스 설정, 프로젝트 빌드하기 / [20:48] 프로젝트 생성 / [21:03] 정보 설정 / [21:52] 빌드 / [22:45] 빌드 결과 확인 / [22:48] 하둡 분산 파일 시스템 / [23:26] HDFS 기초 / [23:41] DAS / [24:02] NAS / [26:33] HDFS 목표 / [29:14] HDFS 아키텍쳐 / [29:33] 블록구조 파일 시스템 / [32:37] 네임노드와 데이터노드

03 HDFS의 파일 저장 동작방식과 읽기 동작방식

HDFS 기초/HDFS 아키텍처/HDFS 명렁어 사용/클러스터 웹 인터페이스

38분

책갈피 : [00:13] 파일 저장에 대한 동작방식 그림 / [02:23] 데이터 저장시 장애가 발생할 경우 / [03:07] 파일 읽기 / [04:29] 보조 네임 노드 / [04:46] 에디트 로그 / [05:27] 파일 시스템 이미지 / [05:56] 에디트 로그와 파일 시스템 이미지의 동작방식 / [07:08] 보조 네임노드의 역할 / [07:30] 보조 네임노드의 체크 포인팅 과정 / [09:16] 체크포인팅이 완료 될 경우 / [10:41] HDFS 명령어 사용법 / [11:37] 명령어 살펴보기 / [12:18] ls 명령어 / [13:50] lsr 명령어 / [14:18] du 명령어 / [14:56] dus 명령어 / [15:46] cat 명령어 / [16:03] text 명령어 / [16:44] mkdir 명령어 / [17:32] put 명령어 / [18:33] put을 이용해 특정 파일 여러개를 test1 디렉토리에 카피하기 / [19:26] copyFromLocal 명령어 / [19:37] get 명령어 / [21:07] get 명령어를 이용해 여러개의 파일을 로컬로 복사할 경우 / [21:37] getmerge 명령어 / [22:33] cp 명령어 / [23:21] mv 명령어 / [23:59] moveFromLocal 명령어 / [24:26] rm 명령어 / [25:00] rmr 명령어 / [25:45] count 명령어 / [27:06] tail 명령어 / [27:41] chmod 명령어 / [29:21] chown 명령어 / [30:07] chgrp 명령어 / [30:33] touchz 명령어 / [31:03] stat 명령어 / [32:52] setrep 명령어 / [33:52] test 명령어 / [35:00] expunge / [35:44] 클러스터 웹 인터페이스 보기 / [36:37] 링크 보기 / [37:12] Live Nodes / [37:22] Dead Nodes

04 HDFS 입출력과 맵리듀스

HDFS 입출력 예제/맵리듀스 개념/아키텍처/WordCount

37분

책갈피 : [00:04] HDFS 입출력 예제 / [01:03] 클래스 임포트 부분 보기 / [03:07] FsDataOutputStream / [04:08] FsDataInputStream / [04:54] 클래스 수행 / [05:30] 파일 조회 / [05:46] 맵리듀스 / [06:30] 맵리듀스 개념 / [06:43] 맵과 리듀스의 동작 / [07:38] 맵과 리듀스 구조 / [09:18] 아키텍처 / [10:00] 맵리듀스 시스템 구성 / [10:33] 잡트래커 / [12:07] 태스크트래커 / [13:13] 맵리듀스 작동 방식 / [14:24] 입력 스플릿 생성 과정 / [16:15] 잡 할당 과정 / [17:30] 매퍼 실행 부분 / [18:02] 파티셔너 / [18:33] 리듀스태스크 / [20:00] 출력 데이터 저장 / [20:25] 하둡 프로그래밍 요소 살펴보기 / [20:55] Interface WritableComparable / [22:00] Interface Writable / [23:10] 예제 보기 / [23:33] class InputFormat / [24:02] 제공되는 두개의 메소드 보기 / [24:41] 다양한 인풋 포멧 보기 / [25:03] TextInputFormat / [26:03] class NLineInputFormat / [26:45] class SequenceFileInputFormat / [27:15] class SequenceFileAsBinaryInputFormat / [27:41] class Mapper / [28:22] 매퍼 클래스 소스코드 보기 / [29:33] map 메소드 / [29:45] run 메소드 / [30:02] class partitioner / [30:37] getpartition 메소드 / [31:37] class Reducer / [32:51] reduce 메소드 / [33:05] combiner 클래스 개념 / [34:22] class OutputFormat / [35:13] class TextOutputFormat / [36:00] class FilterOutputFormat / [36:15] class LazyOutputFormat

05 WordCount 맵리듀스 프로그램

분석용 데이터/항공 출발 지연 데이터 분석/항공 도착 지연 데이터 분석

36분

책갈피 : [00:04] WordCount 맵리듀스 프로그램 만들기 / [00:37] WordCountMapper 보기 / [01:17] 자세한 소스 보기 / [02:38] context 객체 / [04:00] WordCountReducer 보기 / [05:30] 리듀스 메소드 재정의 / [06:30] 리듀스 메소드 내용 보기 / [07:30] wordcount.java 구현 / [08:28] main 보기 / [09:46] 입출력 데이터 경로 설정 / [10:45] 키와 값의 타입 설정 / [11:41] wordcount 실행 / [12:31] 출력 로그 자세히 보기 / [13:16] 리듀서 클래스 출력 파일 보기 / [14:35] 웹에서 실행 결과 확인하기 / [15:45] 상세 정보 보기 / [16:11] 맵 리듀스 개발 과정 정리 / [17:00] 파라미터 정의 단계 / [17:41] 맵리듀스 기초 / [18:52] 각 프로그램에서 진행되는 내용 살펴보기 / [19:33] 분석용 데이터 준비 / [20:33] 데이터 항목 보기 / [22:52] supplemental data sources / [23:29] 필요한 데이터 다운 / [24:22] 데이터 확인 / [24:41] 압출 풀기 / [25:11] 디렉토리 업로드 후 결과 확인 / [25:18] ls 명령어로 인풋 디렉토리 확인 / [25:41] 항공 출발 지연 데이터 분석 프로그램 만들기 / [26:26] 소스 보기 / [27:21] 맵 메소드 보기 / [28:30] 리듀서 보기 / [29:36] 드라이버 클래스 / [30:37] 드라이버 클래스 실행 / [31:48] 출력 데이터 생성 확인 / [32:37] 항공 도착 지연 데이터 분석 / [33:15] 드라이버 클래스 보기 / [34:00] 실행 / [34:45] 결과 파일 확인 / [35:50] 사용자 정의 옵션 사용

06 맵리듀스 기초

사용자 정의 옵션/카운터 사용/다수의 파일 출력/체인

32분

책갈피 : [00:06] 사용자 정의 옵션 / [01:25] GenericOptionsParser / [03:36] 옵션 사용 예제 / [03:50] -fs 옵션 / [04:15] -D 옵션 / [04:42] -conf 옵션 / [05:30] -jt 옵션 / [06:15] Interface Tool / [06:43] Class ToolRunner / [07:12] 매퍼와 드라이버 구현 / [08:00] 전역 변수 선언 부분 보기 / [08:16] setup 메소드 보기 / [09:03] map 메소드 보기 / [09:54] 드라이버 클래스 보기 / [11:07] 클래스 선언 / [12:52] main에서 run 메소드 호출 / [13:09] 드라이버 클래스 실행 / [14:03] 카운터 사용하는 맵리듀스 프로그램 작성 / [14:11] 로그 보기 / [16:21] 사용자 정의 카운터 보기 / [17:07] 매퍼 소스 보기 / [18:41] 딜레이 카운터 확인 / [19:25] 실행 / [19:41] 카운터 살펴보기 / [20:18] 웹 화면 보기 / [20:41] 다수의 파일 출력 / [21:37] Class MultipleOutputs / [23:15] 매퍼 소스 보기 / [24:17] 리듀서 소스 보기 / [25:07] 리듀스 매소드 보기 / [26:00] 드라이버 클래스 살펴보기 / [26:47] 실행 / [26:56] 출발 지연과 도착 지연 분석 확인 / [27:55] 파일 내용 확인 / [28:17] 체인 / [29:48] Class ChainMapper / [30:02] 매소드 보기 / [30:11] Class ChainReducer / [30:56] 체인으로 구현한 코드 보기 / [31:52] 세번째 매퍼 설정할 경우

07 맵리듀스 정렬 구현

보조 정렬/부분 정렬/전체 정렬

38분

책갈피 : [00:06] 정렬 구현 / [01:19] 지난 시간 예제 결과확인 / [02:15] 보조 정렬 순서 / [03:07] 보조 정렬을 이용한 맵리듀스 프로그램 작성 / [03:22] 복합키란? / [03:50] 복합키 사용 / [04:15] 소스 보기 / [04:43] toString 재정의 / [05:57] 복합키 비교기 보기 / [06:46] compare 메서드 구현 / [08:20] 년도가 일치할 경우 / [08:56] 파티셔너 보기 / [10:03] 그룹키 비교기 구현 / [10:58] 두개의 년도값 비교하는 코드 작성 / [11:09] 매퍼,리듀서,드라이버 클래스 구현 / [11:52] 매퍼 클래스 소스 보기 / [12:09] 리듀서 소스 보기 / [13:13] 리듀스 메서드 보기 / [14:05] 드라이버 클래스 소스 보기 / [14:43] 실행 후 결과 확인 / [15:18] 예전에 실행한 job 보기 / [16:45] 부분정렬 / [16:52] 부분정렬 작동방식 / [17:48] 부분정렬 프로그램 작성 / [18:18] 시퀀스 파일 크리에이터 보기 / [18:41] 주의 사항 / [20:15] 매퍼 구현 뒤 run 메서드 보기 / [21:03] 맵 리듀스 파일 실행 / [21:52] 시퀀스 파일 생성 확인 / [22:47] 맵 파일 생성 소스 보기 / [24:22] job 실행 단계 / [24:51] 출력 결과 조회 / [25:11] 데이터 파일에 키와 값이 저장돼 있는지 확인 / [25:48] 검색 프로그램 구현 / [27:32] 해쉬파티셔너로 생성하는 이유 / [28:36] 실행 / [29:29] 로그 파일 제거 / [29:48] 전체 정렬 / [30:33] 전체 정렬 순서 / [31:14] 주의 사항 / [32:05] 전체 정렬 작동 방식 / [32:42] 예제 보기 / [34:07] 파티션 구성 정의 / [34:37] InputSampler 종류 / [36:05] 분산 캐시에 파티션 정보 등록 / [36:21] 실행 후 결과 확인 / [37:06] 정렬 확인

08 조인과 맵리듀스 튜닝

주인 구현/조인 준비/맵-사이드 조인/리듀스-사이드 조인/셔플 튜닝/

40분

책갈피 : [00:07] 조인 / [00:32] 조인을 위한 파일 내려받기 / [01:26] 맵-사이드 조인 / [02:12] 분산캐시 / [03:50] 분산캐시의 작동 방식 / [05:00] Class DistributedCache / [05:09] DistributedCache 사용 방법 / [05:46] 잡 컨프 셋업 / [06:29] 매퍼나 리듀서에서 분산캐시에 등록될 파일 사용과정 / [06:46] 매퍼 구현 / [09:15] 항공사 데이터 보기 / [10:16] 드라이버 클래스 소스 보기 / [11:20] 드라이버 클래스 실행 / [11:46] 출력데이터 조회 / [13:09] 리듀스-사이드 조인 / [13:28] 리듀스-사이드 조인 데이터 흐름 / [15:20] MultipleInputs / [15:45] 데이터보기 / [16:56] 소스 보기 / [18:25] 두번째 매퍼 보기 / [19:11] 두번째 매퍼 소스 보기 / [19:47] 리듀서 소스 보기 / [21:30] 드라이버 클래스 구현 부분 보기 / [22:07] 실행 / [22:44] 출력 경로 조회 / [23:37] 세미 조인 / [23:52] 맵리듀스 튜닝 / [25:15] 셔플 / [25:56] 셔플 작업 과정 자세히 살펴보기 / [26:07] 맵 / [26:37] 스필 / [27:56] 병합 / [28:52] 복사 / [30:11] 파일로 저장되는 두가지 특정 경우 / [31:03] 정렬 / [32:07] 리듀스 / [33:43] 테스트 / [34:04] 잡 실행 / [34:59] 수정된 명령 보기 / [35:15] 중간 과정 보기 / [36:45] 결과 비교 / [37:42] 각 카운터 비교 / [38:07] 카운터 정보 보기 / [39:34] 주의할 점

09 맵리듀스 튜닝과 하둡 운영

콤바이너 클래스 적용/맵 출력 데이터 압축/DFS 블록 사이즈 수정/JVM 재사용/투기적 잡 실행/네임노드 HA 구성/파일시스템 상태 확인/HDFS 어드민 명령어

44분

책갈피 : [00:05] 콤바이너 클래스 적용 / [00:33] 소스 보기 / [01:07] 드라이버 클래스 실행 / [01:34] 구체적인 결과 확인 / [02:38] 맵 출력 데이터 압축 / [04:15] 소스 보기 / [05:10] 실행 / [05:15] gzip 적용 전과 후 비교 / [05:30] snappy / [06:00] snappy 최신 버전 다운 / [06:11] snappy 설치 / [06:46] ArrivalDelayCount에 snappy 적용 / [07:46] DFS 블록 사이즈 수정 / [09:54] distcp 옵션 이용 / [11:05] 결과 조회 / [11:48] 32메가로 생성된 파일을 이용해 데이터 처리하기 / [11:54] 드라이버 클래스 실행 / [12:11] 결과 확인 / [12:43] 결과 비교 / [13:43] mapred-site.xml에서 제공하는 두개의 파라미터 / [15:58] JVM 재사용 / [18:00] 투기적 잡 실행 / [19:48] 투기적 잡 실행 파라미터 보기 / [21:56] 개별적인 잡에 대한 투기적 잡 실행 / [22:37] 하둡 운영 / [22:48] 네임노드의 HA 구성 / [24:22] 하둡과 관련된 다양한 HA 구성방법 / [25:00] 페이스북의 아바타노드 / [26:11] 아바타노드를 이용한 네임노드 HA / [26:48] 백업 아바타 노드 / [28:03] 클라이언트와 주키퍼 사이의 관계 / [29:45] 파일시스템 상태 확인 방법 / [30:15] fsck 명령어 실행 / [30:48] 생성자 로그의 정보 보기 / [31:15] over-replicated blocks / [31:26] under-replicated blocks / [31:48] mis-replicated blocks / [33:43] 벨런스 명령어 / [34:52] HDFS 명령어 사용 / [35:21] -report 옵션 사용 / [35:30] 결과 확인 / [36:42] HDFS 동작 방식 / [37:44] -safemode / [38:45] -saveNamespace 옵션 / [39:20] 실행 / [40:21] 로그 보기 / [41:07] 파일 저장 갯수 설정 / [41:36] 디렉토리 생성 / [41:45] -setQuota 입력 / [42:14] 파일 풋 하기 / [43:30] 파일 저장 용량 설정 방법

10 하둡 운영

데이터 저장공간 관리/데이터노드 제거 및 추가/네임노드와 데이터노드 장애복구/하둡 사용자 관리/하둡 주요 포트

43분

책갈피 : [00:02] 데이터 저장공간 관리 / [00:24] 경로 관련 주요 설정값 / [00:33] hadoop.tmp.dir / [00:40] fs.checkpoint.dir / [01:07] dfs.name.dir / [01:34] dfs.data.dir / [02:00] mapred.local.dir / [02:27] mapred.system.dir / [04:00] core-site.xml 보기 / [04:30] 데이터노드 제거/데이터노드 추가 / [06:15] hdfs-site.xml 파일 내용 보기 / [07:12] 데이터 노드 제거 시 주의사항 / [08:03] -refreshNodes 명령어 / [09:09] 데이터 노드 추가 방법 / [11:46] hdfs-site.xml 내용 보기 / [12:35] 에러가 나는 이유 / [13:24] 네임노드 장애 복구 / [15:07] 구조 보기 / [16:07] current 밑에 파일 설명 / [17:11] 보조 네임노드 구조보기 / [17:52] 보조 네임노드를 이용한 네임노드 장애 복구 / [18:30] 오류 내용 보기 / [20:37] 디렉토리 생성 / [21:00] 네임노드 실행 / [21:37] 하둡 전체 데몬 재실행 / [22:22] NFS 를 이용한 장애 복구 / [22:36] 네임노드 메타데이타 이중화 / [22:48] 백업서버 준비 / [23:32] hdfs-site.xml 설정 파일 수정 / [23:56] 하둡 재구동 / [24:11] 장애시 복구 순서 / [25:48] 데이터노드 장애 복구 / [26:56] 하둡 사용자 관리 / [28:56] 하둡 주요 포트 / [29:51] 하둡 싸이트에서 보기 / [30:10] hdfs-site.xml 보기 / [32:28] mapred-default.xml 보기 / [33:35] 하둡 부가기능 / [34:15] 하둡 스트리밍 / [34:52] 하둡 스트리밍 사용 방법 / [35:22] 하둡 설명 보기 / [37:29] 하둡 스트리밍 실행 옵션 보기 / [38:35] 필수는 아닌 옵션 보기 / [39:05] -inputformat / [39:15] -outputformat / [39:29] -partitioner / [40:45] -verbose / [41:20] 제너릭 옵션 설명 / [41:30] -conf / [41:45] -D / [42:07] -fs / [42:22] -jt / [43:00] -archives

11 하둡 부가기능

하둡 스트리밍/스트리밍 실행 옵션/스틀리밍 구현/잡스케줄러

37분

책갈피 : [00:02] 하둡 스트리밍 구현 / [01:07] 첫번째 job 구현 / [01:45] 내용 보기 / [03:21] 스트리밍 실행 / [03:38] hadoop Map/Reduce Administration 보기 / [03:53] Failed job 상세 보기 / [04:15] 에러 부분 보기 / [05:56] 명령어 파이프라인 사용 / [06:23] 스크립트 파일로 명령어 작성 / [07:00] 출력 결과 보기 / [07:26] 두번째 job 구현 / [10:01] 실행 / [10:16] 출력 데이터 확인 / [10:35] 파이썬을 이용한 스트리밍 구현 / [11:22] 매퍼 역할을 할 스크립트 / [11:46] 내용 보기 / [13:18] ArrivalDelayReducer.py 보기 / [15:11] 하둡 스트리밍 실행 / [16:03] 주의사항 / [16:51] 결과 파일 조회 / [17:06] aggregate 패키지 이용 / [17:22] 주요 클래스 보기 / [18:56] 스트리밍에서 이용하기 / [19:40] 파이썬 소스 보기 / [20:18] 스트리밍 실행 화면 / [20:56] 결과 파일 조회 / [21:07] 히스토그램 값 구하기 / [21:41] 실행 화면 보기 / [22:22] 출력 결과 보기 / [22:52] 잡 스케줄러 / [24:06] 페어스케줄러 / [24:52] 페어스케줄러 설치 / [26:10] 하둡의 환경 설정 파일 수정 / [26:55] 추가된 속성 보기 / [27:41] 하둡 도큐먼트에서 속성 보기 / [30:36] Advanced Parameters 보기 / [33:28] 풀 설정 파일 정의 / [34:05] 각 풀에 대한 정의 / [34:59] 속성 정의 / [36:09] 전체에 대한 속성 보기

12 하둡 부가기능과 하이브

페어스케줄러/커패시티 스케줄러/contrib 패키지/하이브 아키텍처/하이브 설치/하이브QL/하이브 칼럼 타입

39분

책갈피 : [00:08] 페어 스케줄러 적용 / [00:20] job 수행되는 시간 확인 / [01:48] 하둡 클러스터에 페어 스케줄러 적용 / [02:07] job 트래커 재구동 / [02:36] Fair Scheduler Administration 보기 / [04:00] 성능 비교 / [04:59] Map/Reduce History Viewer로 결과 확인 / [06:30] 커패시티 스케줄러 / [08:07] jar 파일 빌드 / [08:43] mapred-site.xml 변경 / [09:05] 커패시티 스케줄러 적용 / [09:58] job 트래커 재구동 / [10:11] 환경 설정 파일로 queue에 대한 설정하기 / [10:58] capacity-scheduler.xml 보기 / [11:31] 속성값 살펴보기 / [12:03] maximum-capacity / [12:20] supports-priority / [12:33] minimum-user-limit-percent / [14:20] queueA 와 queueB 에 대한 설정 보기 / [15:18] mapred-queue-acls.xml 보기 / [15:31] acl / [16:30] queue에 대한 접근 권한 설정 / [18:03] queueA와 queueB 설정화면 / [18:26] 관리 화면에서 queue 조회 / [19:07] 스케줄링 인포메이션 보기 / [19:41] 커패시티 스케줄러 사용 / [20:37] 실행 / [21:36] 하이브 / [22:21] 하이브 아키텍처 / [23:56] 구성요소 보기 / [24:26] 패키지 다운로드 / [25:22] 여러 환경설정 파일 템플릿 보기 / [25:52] 하둡의 홈 디렉토리 설정 / [26:56] hive-default.xml 속성값 보기 / [27:10] hive.metastore.warehouse.dir / [27:25] hive.exec.scratchdir / [27:48] ConnectionURL / [28:17] ConnectionDriverName / [28:37] ConnectionUserName / [29:29] hdfs에 경로 생성 / [30:37] 실행 / [30:56] 하이브 QL과 SQL과의 차이점 / [32:45] 하이브 QL 쿼리문 작성 / [33:19] 테이블 생성 내용 / [33:45] 하이브 칼럼 타입 / [34:07] create table 명령문 보기 / [36:28] 실행 결과 보기 / [36:35] external 키워드 추가 / [37:35] describe 명령어 / [38:22] drop 테이블

13 하이브QL과 하둡 적용

데이터업로드/하이브 내장집계함수/하이브 내장함수/조인/조인 제약사항/버킷활용/하둡과 몽고디비 이용/히둡 에코시스템 활용한 분석 플랫폼 구축/빅데이터 기술 이용한 소셜 네트워크 데이터 분석

40분

책갈피 : [00:09] 데이터 업로드 / [00:39] 첫번째 라인 삭제한 이유 / [01:11] 데이터 업로드 화면 보기 / [02:07] hdfs 조회 / [02:35] 데이터 정상 등록 확인 / [04:00] 하이브 내장 집계 함수 / [05:00] count(1) / [05:30] 결과 확인 / [06:00] AVG / [06:42] 하이브 주요 내장함수 / [08:18] regexp_replace / [10:22] get_json_object / [10:58] cast / [11:28] language manual 보기 / [11:56] 조인 / [12:52] 항공운항 지연 데이터와 항공사 코드 테이블 조인 / [13:48] 데이터 업로드 / [14:07] 조인하기 / [15:03] 실행 결과 확인 / [15:18] 두개 이상의 테이블 내부 조인으로 처리하기 / [16:22] 조인 쿼리 작성 / [17:37] 외부 조인 테스트 / [18:33] 외부 조인 쿼리 실행 / [19:37] 버킷 활용 / [20:41] 버킷 활용 예제 보기 / [21:11] 데이터 insert / [22:03] 실행 결과 확인 / [22:55] 버킷 활용시 주의점 / [23:11] 하둡의 적용 사례 / [23:56] 하둡과 몽고디비 이용 / [24:55] 스토리지 사용 추이 데이터 보기 / [25:45] 몽고디비 살펴보기 / [26:26] 완전 분산 모드 구성 예 / [27:22] 하둡과 몽고디비 테스트 결과 / [29:25] 몽고디비 결과 / [30:45] 최종 시스템 구성 / [31:37] 하둡 에코시스템 활용한 분석 플랫폼 구축 사례 / [33:06] 분석 플랫폼의 요구사항 / [33:19] 경제성 확보 / [33:35] 동일한 처리 결과 확보 / [33:52] 확장성과 실시간성 확보 / [34:22] 새로운 데이타 분석 기법에 대한 수용력 확보 / [35:22] 분석 시스템 구성 / [37:00] 빅데이터 기술을 이용한 소셜 네트워크 데이터 분석 사례 / [37:37] sns 데이터 분석 시스템 구성 / [37:51] 각 구성요소 역할 보기

14 하둡 데이터 이동 part1

인그레스/이그레스/플룸 아키텍처/스크라이브 아키텍처/추크와 아키텍처/하둡에 로그파일 집어넣기

37분

책갈피 : [00:05] 하둡 데이터의 이동 / [00:54] 하둡 데이터 인그레스 및 이그레스 / [02:15] 자동화 / [03:23] 주요 인그레스 및 이그레스 고려 요소 / [03:38] 멱등성 / [04:25] 취합 / [04:57] 데이터 형식 변형 / [06:00] 복구 가능성 / [06:29] 정확성 / [07:15] 리소스 소비 및 성능 / [08:03] 모니터링 / [08:41] 하둡으로 데이터 옮기기 / [08:45] 하둡에 로그파일 집어넣기 / [09:28] 플룸 아키텍처 / [10:05] 추크와 아키텍처 / [10:54] 스크라이브 아키텍처 / [11:41] 추크와, 플룸과 스크라이브의 차이점 / [12:11] 하둡으로 데이터를 옮길때 쓸수 있는 주된 방법 / [12:50] 플룸을 활용한 hdfs의 시스템들의 로그 수집 방법 / [13:41] 전체 플룸 배포 환경 / [14:35] 플룸 설치 관련 페이지 보기 / [15:22] 인스톨 방법 / [15:41] 플룸 실행 방법 / [16:25] 플룸 설치 모습 보기 / [16:41] conf 디렉토리 가기 / [17:25] 플룸 마스터 데몬 시작 / [17:55] 플룸 노드 데몬 시작 화면 / [18:07] 호스트 / [18:15] 플룸 에이전트 / [18:44] 플룸 컬렉터 / [20:14] lgo 압축을 이용해 클러스터를 설정한 경우 / [21:07] 컬렉터로 노드 실행 / [21:55] 플룸 마스터에서 설정 변경하는 방법 / [22:07] UI를 사용한 설정법 / [24:22] 마스터 페이지 보기 / [25:18] flume shell 실행 / [26:18] 핵심 개념 살펴보기 / [26:32] 플룸 데이터 소스 / [27:11] 플룸 소스 카탈로그 / [29:30] 에이전트 싱크 / [29:56] 데이터싱크 안정성 모드 / [30:52] 장애극복 모드 / [32:07] 사용가능한 에이전트 싱크 / [32:51] 플룸 유저가이드 보기 / [33:45] 플룸 컬렉터 데이터 싱크 / [34:50] output Bucketing 항목 보기 / [35:09] 출력 포맷 보기

15 하둡 데이터 이동 part2

반구조화된 데이터 및 바이너리 파일 집어넣고 가져오기/파일슬러퍼/우지/데이터베이스로부터 데이터 풀링/맵리듀스활용/스쿱

45분

책갈피 : [00:23] 반구조화된 데이터 및 바이너리 파일 집어넣고 가져오기 / [01:32] 파일 슬러퍼 / [01:49] 파일 슬러퍼 사용 예제 / [02:30] 슬러퍼 환경 설정 파일 / [03:30] 예제를 통해 내용 살펴보기 / [05:40] 슬러퍼 실행 부분 / [06:00] 슬러퍼의 중요한 특징 / [06:46] 두번째 예제 보기 / [08:33] 슬러퍼에서 사용하는 대상 디렉토리 밑 파일 명을 동적으로 제어하는 방법 / [09:03] 세번째 예제 보기 / [11:09] 결과 로그 확인 / [12:20] 우지를 활용한 정기적인 인그레스 활동 예약 / [13:35] 우지 란? / [14:28] 우지에서 사용하는 조율기의 xml 설정파일 / [14:48] coordinator.xml 파일 내용 보기 / [15:58] 실제 작업 흐름 보기 / [16:48] workflow.xml 파일 내용 보기 / [18:03] 속성 파일 정의 / [18:26] 내용 보기 / [19:21] job 중단 하기 / [19:52] 데이터베이스로부터 데이터 풀링하기 / [20:30] 하둡의 역할 / [21:26] 내장 맵리듀스 클래스 사용법 / [21:33] DBInputFormat 사용 / [22:11] 예제 살펴보기 / [22:44] 스트링 배열 보기 / [22:51] readFields 메서드 보기 / [23:33] 맵리듀스 job 소스 보기 / [24:07] runJob 메서드 보기 / [25:26] DBInputFormat.setInput 보기 / [25:45] 맵 클래스 보기 / [26:14] DB 구조 살펴보기 / [26:52] DBImportMapReduce 실행 / [27:41] avro 파일의 내용 / [28:03] DBInputFormat 사용시 몇가지 주의 사항 / [29:37] 스쿱 불러오기 / [30:00] 스쿱이란? / [30:37] 커넥터 / [31:37] 스쿱 명령 사용하기 / [32:30] 스쿱 실행 전 주의점 / [33:35] 실행 결과 보기 / [34:15] 대용량의 데이터 불러올 경우 / [34:57] 압축 파일 사용시 주의점 / [35:15] 예제 살펴보기 / [36:13] 쿼리 보기 / [36:58] 두가지 예제 더 보기 / [37:45] 고속 커넥터 / [38:15] 스쿱을 활용해 데이터를 하이브 테이블로 불러오기 / [39:37] 서로 다른 하이브 파티션 생성하기 / [40:52] HBase / [41:34] HBase Shell 명령어 보기 / [42:57] 맵 리듀스의 데이터 소스로서 HBase를 사용하는 경우 / [43:46] 기본 설정 값 확인

16 하둡 데이터 이동 part3

하둡 밖으로 데이터 옮기기/로컬 파일시스템으로의 이그레스/데이터베이스/HBase/하이브를 활용한 데이터 분석/로그 파일 로딩/UDF 및 압축 파티션 테이블 쓰기

40분

책갈피 : [00:08] 하둡 밖으로 데이터 옮기기 / [01:33] 하둡에서 관계형 데이터 베이스로 데이터를 쓰는 방법 / [02:44] 작업 과정 보기 / [03:30] export-dir 인자 / [04:00] 예제 보기 / [05:00] 스쿱의 옵션 / [05:15] input-enclosed-by / [05:27] input-escaped-by / [05:45] input-fields-terminated-by / [05:55] input-lines-terminated-by / [06:30] 멱등적 내보내기 / [07:45] 고속 커넥트를 이용해 직접 내보내기 예제 / [08:35] mysql import를 활용한 멱등적 내보내기 예제 / [09:35] HBase로 데이터 옮기기 / [10:03] HBase shell 에서 테이블 만들기 / [11:22] hbase 데이터 싱크 활용하기 / [12:54] 메인 보기 / [13:24] 맵 리듀스 잡 실행 / [14:37] 하이브 활용 / [15:01] 하이브 활용 예제 살펴보기 / [16:29] 직렬화 및 역직렬화(SerDe) / [17:37] 직렬화 및 역직렬화 동작 살펴보기 / [18:03] 테이블 생성 / [19:22] 테이블 조회 / [19:45] 정규식 작성시 주의할점 / [20:11] 역직렬화의 과정 / [21:41] RegexSerDe 작동 보기 / [22:15] RegexSerDe class / [24:06] deserialize 코드보기 / [24:37] 하이브 직렬화 인터페이스 보기 / [24:56] getSerializedClass 살펴보기 / [25:11] Serialize 살펴보기 / [26:44] udf 및 압축 파티션 테이블 쓰기 / [27:33] hiveql 보기 / [29:03] 로그테이블로 부터 udf 사용하기 / [29:37] 명령 보기 / [30:11] 버킷 설정 두가지 방법 / [32:06] insert 문 보기 / [33:29] hive_default_partition / [33:52] 출력값 살펴보기 / [34:07] 테이블의 레이아웃 구조 보기 / [35:22] 버켓팅을 하는 이유 / [36:22] udf 두가지 작성 방법 / [37:00] udf 클래스 살펴보기 / [37:52] 질의 위치 udf 소스 보기 / [38:50] evaluate 메서드 보기 / [39:45] description 보기

17 하이브 활용과 피그

하이브를 활용한 데이터 분석/하이브 조인 튜닝/그루핑, 정렬, Explain/피그 기본/피그로 데이터 로드

44분

책갈피 : [00:05] 하이브 조인 튜닝 / [01:17] 조인 작업 속도 높이는 옵션 보기 / [01:26] 리파티션 조인 / [02:07] 테스트 테이블 보기 / [03:35] outer join 보기 / [03:53] left outer join / [04:42] right outer join / [05:15] Full outer join / [06:13] 복제 조인 / [07:30] 맵 사이드 조인 수행 조건 / [08:50] 하이브의 자동 복제 기능 활성화 / [10:50] 세미 조인 / [11:28] skewjoin / [13:03] 그루핑, 정렬, explain / [14:26] explain 키워드 / [14:41] explain 출력값 보기 / [15:58] 스테이지 계획 / [16:56] viewed_movies / [17:03] 입력 부분 보기 / [17:21] 리듀스 출력 값 확인 / [19:45] 피그 / [21:21] 피그 기본 / [21:48] piggybank / [22:41] 피그 설치 뒤 테스트 / [23:33] 피그 아키텍처 / [24:21] 피그 라틴 / [24:48] 피그 라틴 데이터 타입 보기 / [25:36] dump 명령어 사용 예 / [26:44] describe / [27:03] 연산자와 함수 / [28:10] load 함수 / [28:37] 평가 함수 / [29:11] 필터 함수 / [29:45] 저장 함수 / [30:15] 인터렉티브 및 비인터렉티브 피그 / [31:33] 고급 피그 기법 / [31:52] 악의적 웹사이트 사용을 찾기 위한 피그 파이프라인 / [32:14] 데이터 로드 / [33:52] 완전한 기능을 갖춘 로그 로더 제공 방법 / [35:04] 간단한 문자열 토큰화 / [36:22] 소스 보기 / [36:50] 메서드 살펴보기 / [38:22] setTuple 메서드 / [40:00] 로드 하기 / [40:52] 내용 보기 / [41:12] 간단한 연산 수행 / [41:59] 커먼 로그 로드 펑션을 사용해 로드 하는 법 알아보기

18 피그

피그 파이프라인/필터링 및 투영/UDF 그루핑 및 취합/UDF 활용 위치 찾기/스트리밍/조인/정렬/데이터저장

42분

책갈피 : [00:57] 필터링 / [01:11] 투영 / [01:29] 투영 과정 / [02:07] 필터링 과정 / [03:50] 데이터에 정교한 필터링 적용하기 / [04:30] 내용 보기 / [05:41] 필터링 적용 / [06:55] 그루핑 / [07:46] 필터 연산 결과로 ip 주소별로 로그 엔트리 그루핑하고 계산하기 / [08:09] 그룹 결과 보기 / [09:15] 횟수 세기 / [09:35] 결과 확인 / [10:11] 예제 살펴보기 / [11:01] 결과 확인 / [12:18] 대수 함수 / [12:48] getInitial / [12:56] getIntermed / [13:01] getfinal / [13:41] 예제 보기 / [14:13] explain 결과 보기 / [15:39] accumulater 함수 / [16:32] 작업 상황 확인 / [17:10] evalFunc / [17:33] 단순 / [17:48] 취합 / [18:37] 대수 / [19:22] 집적 / [20:10] 로그 파일에서 특정 ip의 위치를 판단하고 싶을때 / [21:03] 소스 보기 / [22:56] exec 메소드 / [23:41] 입력 타입 지정 / [24:07] udf 실행 / [25:37] 소스 보기 / [26:33] 문자 형태와 숫자 형태 아이피 모두 지원하는 방법 / [27:52] funclist.add 부분 보기 / [28:41] 지원하지 않는 타입의 udf를 사용할 경우 / [29:18] 스트리밍 / [30:11] 맵리듀스와 연계한 피그의 스트리밍 흐름 / [30:37] 스트리밍 피그 인터페이스 / [31:11] 스크립트 내용 보기 / [33:07] 조인 / [34:52] using 'replicated' / [35:07] 정렬 / [36:05] 저장 / [36:30] 시퀀스 파일로 저장하는 이유 / [36:45] 시퀀스 파일 스토어 펑션 / [39:06] outputFormat / [40:07] 출력값 쓰기 / [40:49] 파일 읽어오기 / [41:07] 커스텀 로드 펑션 실행

19 피그와 그런치 및 그 외 기술

사용자 작업 흐름 최적화/LIMIT/SAMPLE/ILLUSTRATE/EXPLAIN/성능/그런치

40분

책갈피 : [00:57] 사용자 작업 흐름 최적화 / [01:34] LIMIT / [01:38] SAMPLE / [01:47] ILLUSTRATE / [02:07] DESCRIBE / [02:23] LIMIT 연산자 사용법 / [04:25] SAMPLE 연산자 사용법 / [05:13] RandomSampleLoader / [05:41] RandomSampleLoader 인자 보기 / [05:46] ILLUSTRATE 연산자 사용법 / [07:30] EXPLAIN 연산자 사용법 / [08:43] 예제 보기 / [09:11] Logical Plan / [10:28] status 보기 / [11:22] physical Plan / [12:01] Map Reduce Plan / [12:39] -dot 옵션과 함께 실행하기 / [13:43] 피그의 성능 / [14:56] 필터 예제 / [15:46] 조인 최적화 / [16:22] 샘플링과 리밋 예제 / [16:45] 대수 및 누적 UDF 사용 방법 / [17:48] 연산병합 / [18:14] 복제조인 및 스큐조인 / [19:40] 다중리듀서 / [20:29] PARALLEL 키워드 / [20:51] default_parallel 키워드 / [21:15] MapRed-site.xml의 MapRed.reduce.tasks / [21:41] 피그에서 리듀서를 사용하는 연산자 / [22:36] 크런치 및 그 외 기술 / [23:56] 크런치 / [24:26] 데이터 컬렉션 / [24:37] 타입매핑 시스템 / [24:55] 컬렉션 조작 연산 / [25:22] 파이프라인 클래스 메서드 보기 / [26:37] 컬렉션 다이어그램 / [27:55] 각 컬렉션 클래스의 연산 / [29:33] dofn 클래스 / [29:52] configure 메서드 / [30:07] initialize 메서드 / [30:11] process / [30:22] cleanup / [31:00] 커스텀 연산 정의 / [32:27] 텍스트 파일 토큰화를 위한 크런치 파이프라인 / [33:22] simpleTokenize 클래스 / [34:30] process 메서드 / [35:52] 크런치에서 완전한 맵 리듀스 잡 실행하기 / [36:22] 역 인덱스 생성하는 크런치 코드 / [37:07] 함수 살펴보기 / [38:34] uniqueValues 메서드 살펴보기

20 데스트와 디버깅

로그에서 가장 인기있는 URL 찾기/조인/케스케이딩/튜플, 파이프, 탭/테스트/사용자 공간 문제 디버깅/맵리듀스 주의 사항

44분

책갈피 : [00:03] 로그에서 가장 인기있는 URL 찾기 / [00:57] popularlinks 소스 보기 / [02:59] initialize를 통한 선언 초기화 /[03:29] 예외처리 / [04:00] 에러처리 부분 보기 / [04:56] 필터링 및 투영 관련 작업 / [05:30] 실행 결과 보기 / [05:44] 조인 / [06:46] 크런치 조인 파이프라인 / [07:14] 유저와 로그를 조인하는 클래스 소스 보기 / [08:11] 로그 문자열을 테이블로 변환하는 함수 호출 / [09:05] 조인할때 중요한 점 / [10:26] 조인 실행 결과 / [10:46] 캐스케이딩 / [11:16] 캐스케이딩을 활용한 소스 / [13:11] count / [13:43] flowconnector / [14:41] 테스트와 디버깅 / [15:33] 테스트 요소 살펴보기 / [15:50] 테스트 주도 개발 / [16:32] 코드 설계 / [17:07] 예제 살펴보기 / [18:02] 테스트 데이터 / [19:00] MRUnit 을 이용한 단위 테스트 작성 / [19:56] 맵 테스트 작성 / [21:32] withInput 메서드 / [22:07] 주의할 점 / [23:02] 결과 보기 / [23:44] MRUnit 을 이용하고, 실패시 제이유닛에서 제공하는 정보도 활용할 경우 / [24:07] run 메서드 / [25:40] MRUnitJUnitAsserts 클래스 보기 / [26:52] 맵 및 리듀스 함수 함께 테스트 하는 방법 살펴보기 / [28:11] 파이프 라인 테스트 살펴보기 / [29:56] 사용자 공간 문제 디버깅 / [30:18] 로그 살펴보기 / [31:18] ui에 접근할수 없는 경우 / [32:06] 테스크 출력 값 보기 / [33:52] 코드가 오작동 하게 만드는 입력 데이터 따로 떼어내기 / [35:37] 히스토리 결과 보기 / [37:15] 맵리듀스 주의 사항 / [37:44] 지나치게 많은 캐시 / [38:43] 큰 입력 레코드 / [39:34] 지나치게 많은 외부 리소스 / [40:14] 투기적 실행 경쟁 조건 / [41:14] 잘못된 입력 값 처리안함 / [41:52] 하둡 버전 및 설정이 다른 클러스터 / [42:27] 대규모 데이터셋 테스트 및 디버깅 / [43:00] 파싱 및 로직 에러의 미처리 / [43:21] 지나치게 많은 카운터

샘플확인 : 알지오 검색후 -> 강의검색란 -> Hadoop

저작자표시 비영리 변경금지

'학과 샘플강의' 카테고리의 다른 글

프레지 - 총 6시간 23분 / 강의당평균 : 38분17초 (0)	2016.09.21
델파이 - 총 14시간 51분 / 강의당평균 : 44분32초 (0)	2016.09.21
nx7 - 총 7시간 47분 / 강의당평균 : 23분21초 (0)	2016.09.21
motion5 - 총 13시간 28분 / 강의당평균 : 40분23초 (0)	2016.09.21
MFC programming - 총 11시간 50분 / 강의당평균 : 35분30초 (0)	2016.09.21

현재글Hadoop - 총 13시간 10분 / 강의당평균 : 39분30초

IT전문교육 알지오 평생교육원 입니다. 실무자들을 위한 IT전문 교육강의를 연구&개발하여 서비스하고 있습니다. 2003년 설립했으며 대한민국 IT전문가 양성 목적으로 합니다.

안드로이드스튜디오, androidStudio, AndroidStudio강의, AndroidStudio인강, css3강좌, 안드로이드스튜디오인강, AndroidStudio예제, AndroidStudio학원, 알지오, AndroidStudio교육, javascript, 알지오 평생교육원, 안드로이드스튜디오예제, 알지오평생교육원, 안드로이드스튜디오사용법, css3, css3강의, 피날레2014, AndroidStudio배우기, AndroidStudio강좌,

Today :
Yesterday :

알지오 평생교육원