알지오 평생교육원 HADOOP 강좌입니다.
전문가들이 뽑은 꼭 배워야하는 실무활용 강의
그동안 찾던 HADOOP 강좌의 완전판 !
여러분의 마지막 강의가 되어드리겠습니다.
알지오에서는 PC와 스마트폰, 태블릿을 이용해서 언제,
어디서나 공부를 할 수 있습니다.
열심히 공부해서 HADOOP 강좌를 마스터해보세요.
<HADOOP 강좌 샘플동영상>
<HADOOP 강좌 리뷰>
알지오의 하둡 강의를 통해서 기본부터 시작해서 꼼꼼히 배웠습니다.
역시 코딩을 할 때는 기본기가 가장 중요한 것 같아요.
좋은 강의로 공부하니까 제 코딩실력이 눈에 띄게 늘어가는 거 같아요.
하루하루 공부할 때 실력이 늘어가서 뿌듯합니다.
덕분에 두 달 동안 정말 많은 도움이 되었습니다.
HADOOP 강좌 정보입니다. 추천 인터넷 강의 : 알지오
- 01.38분 hadoop의 소개와 개발 준비
빅데이터, 하둡 에코 시스템, ETL, 실행모드, 리눅스 서버 준비, 호스트 파일 수정, 인코딩 방식 설정, 자바와 하둡 설치
책갈피 : [00:59] 빅데이터의 정의/[01:38] 빅데이터의 특징/[01:49] 빅데이터의 3대 요소/[02:46] 분산 컴퓨팅 솔루션/[03:14] 속도적인 측면/[04:00] 장기적 접근/[04:28] 다양성 측면에서 보기/[04:38] 정형 데이타/[05:15] 반정형 데이타/[05:30] 비정형 데이타/[07:11] 빅데이터가 중요한 이유/[08:22] 하둡이란/[08:35] 하둡 공식사이트/[08:52] 하둡이 주목을 받는 이유/[09:28] 하둡 비용/[09:52] 하둡 장애 대비/[10:07] 하둡 데이터 처리/[11:07] 하둡과 관련된 제품/[12:28] 하둡 1.0 버전 추가된기능/[13:16] 하둡 에코 시스템/[14:13] 각 서브 프로젝트의 특징 살펴보기/[14:20] zoo keeper/[15:18] oozie/[15:41] hbase/[16:25] pig/[16:52] hive/[17:26] mahout/[18:02] hcatalog/[18:37] avro/[18:52] chukwa/[19:30] flume/[20:00] scribe/[20:33] sqoop/[21:03] hiho/[21:30] impala/[21:56] tajo/[22:59] ETL/[23:52] 하둡 개발 준비/[24:02] 실행모드 결정/[25:30] 리눅스 서버 준비/[26:11] 하둡 다운로드/[27:37] 하둡 실행할 계정 생성/[29:26] 인코딩 방식 설정/[30:26] 적용 여부 확인/[32:22] 설치 파일 실행/[32:37] 링크 생성/[33:22] 자바 버전 확인/[35:07] 하둡 실행 계정으로 로그인/[35:14] 공개 키 생성/[36:30] ssh 접속 시도/[37:15] 파일 압축 풀기
- 02.36분 개발 준비와 하둡 분산 파일 시스템
하둡 환경설정 파일 수정, 하둡 실행, 예제 실행, 이클립스 설정, 프로젝트 빌드, HDFS 기초, HDFS 아키텍처, 네임노드와 데이터노드, 블록구조 파일시스템
책갈피 : [00:03] 환경 설정 파일 수정/[00:25] 수정할 여섯개 파일 설명/[00:28] hadoop-env.sh/[00:59] masters/[01:06] slaves/[01:14] core-site.xml/[01:51] hdfs-site.xml/[02:07] mapred-site.xml/[03:00] hadoop-env.sh 파일 설정/[04:54] hadoop_home_warn_suppress 옵션/[05:46] hadoop classpath 옵션/[06:15] ssh 옵션/[07:13] masters 파일 설정/[07:44] slaves 파일 설정/[08:07] core-site.xml 파일 설정/[08:56] hadoop.tmp.dir/[09:24] hdfs-site.xml 파일 설정/[10:15] dfs.http.address/[10:54] mapred-site.xml 파일 설정/[11:22] 네임노드의 하둡 디렉토리 압축/[11:58] 압축 파일 데이터 노드로 복사/[12:09] 압축 파일 해제/[12:22] 확인/[12:58] 방화벽 작업 후 실행/[14:05] 하둡 명령어 호출해서 초기화/[14:54] 하둡 관련 데몬 실행/[15:16] 내용 보기/[15:54] 모든 데몬 중지하기/[16:03] 각 데몬 별도 실행/[16:22] jps로 하둡 실행 여부 확인/[17:52] 하둡을 이용한 간단한 예제 실행/[19:03] 워드 카운트 실행/[19:37] 결과 값 확인/[20:18] 이클립스 설정, 프로젝트 빌드하기/[20:48] 프로젝트 생성/[21:03] 정보 설정/[21:52] 빌드/[22:45] 빌드 결과 확인/[22:48] 하둡 분산 파일 시스템/[23:26] HDFS 기초/[23:41] DAS/[24:02] NAS/[26:33] HDFS 목표/[29:14] HDFS 아키텍쳐/[29:33] 블록구조 파일 시스템/[32:37] 네임노드와 데이터노드
- 03.38분 HDFS의 파일 저장 동작방식과 읽기 동작방식
HDFS 기초, HDFS 아키텍처, HDFS 명렁어 사용, 클러스터 웹 인터페이스
책갈피 : [00:13] 파일 저장에 대한 동작방식 그림/[02:23] 데이터 저장시 장애가 발생할 경우/[03:07] 파일 읽기/[04:29] 보조 네임 노드/[04:46] 에디트 로그/[05:27] 파일 시스템 이미지/[05:56] 에디트 로그와 파일 시스템 이미지의 동작방식/[07:08] 보조 네임노드의 역할/[07:30] 보조 네임노드의 체크 포인팅 과정/[09:16] 체크포인팅이 완료 될 경우/[10:41] HDFS 명령어 사용법/[11:37] 명령어 살펴보기/[12:18] ls 명령어/[13:50] lsr 명령어/[14:18] du 명령어/[14:56] dus 명령어/[15:46] cat 명령어/[16:03] text 명령어/[16:44] mkdir 명령어/[17:32] put 명령어/[18:33] put을 이용해 특정 파일 여러개를 test1 디렉토리에 카피하기/[19:26] copyFromLocal 명령어/[19:37] get 명령어/[21:07] get 명령어를 이용해 여러개의 파일을 로컬로 복사할 경우/[21:37] getmerge 명령어/[22:33] cp 명령어/[23:21] mv 명령어/[23:59] moveFromLocal 명령어/[24:26] rm 명령어/[25:00] rmr 명령어/[25:45] count 명령어/[27:06] tail 명령어/[27:41] chmod 명령어/[29:21] chown 명령어/[30:07] chgrp 명령어/[30:33] touchz 명령어/[31:03] stat 명령어/[32:52] setrep 명령어/[33:52] test 명령어/[35:00] expunge/[35:44] 클러스터 웹 인터페이스 보기/[36:37] 링크 보기/[37:12] Live Nodes/[37:22] Dead Nodes
- 04.37분 HDFS 입출력과 맵리듀스
HDFS 입출력 예제, 맵리듀스 개념, 아키텍처, WordCount
책갈피 : [00:04] HDFS 입출력 예제/[01:03] 클래스 임포트 부분 보기/[03:07] FsDataOutputStream/[04:08] FsDataInputStream/[04:54] 클래스 수행/[05:30] 파일 조회/[05:46] 맵리듀스/[06:30] 맵리듀스 개념/[06:43] 맵과 리듀스의 동작/[07:38] 맵과 리듀스 구조/[09:18] 아키텍처/[10:00] 맵리듀스 시스템 구성/[10:33] 잡트래커/[12:07] 태스크트래커/[13:13] 맵리듀스 작동 방식/[14:24] 입력 스플릿 생성 과정/[16:15] 잡 할당 과정/[17:30] 매퍼 실행 부분/[18:02] 파티셔너/[18:33] 리듀스태스크/[20:00] 출력 데이터 저장/[20:25] 하둡 프로그래밍 요소 살펴보기/[20:55] Interface WritableComparable/[22:00] Interface Writable/[23:10] 예제 보기/[23:33] class InputFormat/[24:02] 제공되는 두개의 메소드 보기/[24:41] 다양한 인풋 포멧 보기/[25:03] TextInputFormat/[26:03] class NLineInputFormat/[26:45] class SequenceFileInputFormat/[27:15] class SequenceFileAsBinaryInputFormat/[27:41] class Mapper/[28:22] 매퍼 클래스 소스코드 보기/[29:33] map 메소드/[29:45] run 메소드/[30:02] class partitioner/[30:37] getpartition 메소드/[31:37] class Reducer/[32:51] reduce 메소드/[33:05] combiner 클래스 개념/[34:22] class OutputFormat/[35:13] class TextOutputFormat/[36:00] class FilterOutputFormat/[36:15] class LazyOutputFormat
- 05.36분 WordCount 맵리듀스 프로그램
분석용 데이터, 항공 출발 지연 데이터 분석, 항공 도착 지연 데이터 분석
책갈피 : [00:04] WordCount 맵리듀스 프로그램 만들기/[00:37] WordCountMapper 보기/[01:17] 자세한 소스 보기/[02:38] context 객체/[04:00] WordCountReducer 보기/[05:30] 리듀스 메소드 재정의/[06:30] 리듀스 메소드 내용 보기/[07:30] wordcount.java 구현/[08:28] main 보기/[09:46] 입출력 데이터 경로 설정/[10:45] 키와 값의 타입 설정/[11:41] wordcount 실행/[12:31] 출력 로그 자세히 보기/[13:16] 리듀서 클래스 출력 파일 보기/[14:35] 웹에서 실행 결과 확인하기/[15:45] 상세 정보 보기/[16:11] 맵 리듀스 개발 과정 정리/[17:00] 파라미터 정의 단계/[17:41] 맵리듀스 기초/[18:52] 각 프로그램에서 진행되는 내용 살펴보기/[19:33] 분석용 데이터 준비/[20:33] 데이터 항목 보기/[22:52] supplemental data sources/[23:29] 필요한 데이터 다운/[24:22] 데이터 확인/[24:41] 압출 풀기/[25:11] 디렉토리 업로드 후 결과 확인/[25:18] ls 명령어로 인풋 디렉토리 확인/[25:41] 항공 출발 지연 데이터 분석 프로그램 만들기/[26:26] 소스 보기/[27:21] 맵 메소드 보기/[28:30] 리듀서 보기/[29:36] 드라이버 클래스/[30:37] 드라이버 클래스 실행/[31:48] 출력 데이터 생성 확인/[32:37] 항공 도착 지연 데이터 분석/[33:15] 드라이버 클래스 보기/[34:00] 실행/[34:45] 결과 파일 확인/[35:50] 사용자 정의 옵션 사용
- 06.32분 맵리듀스 기초
사용자 정의 옵션, 카운터 사용, 다수의 파일 출력, 체인
책갈피 : [00:06] 사용자 정의 옵션/[01:25] GenericOptionsParser/[03:36] 옵션 사용 예제/[03:50] -fs 옵션/[04:15] -D 옵션/[04:42] -conf 옵션/[05:30] -jt 옵션/[06:15] Interface Tool/[06:43] Class ToolRunner/[07:12] 매퍼와 드라이버 구현/[08:00] 전역 변수 선언 부분 보기/[08:16] setup 메소드 보기/[09:03] map 메소드 보기/[09:54] 드라이버 클래스 보기/[11:07] 클래스 선언/[12:52] main에서 run 메소드 호출/[13:09] 드라이버 클래스 실행/[14:03] 카운터 사용하는 맵리듀스 프로그램 작성/[14:11] 로그 보기/[16:21] 사용자 정의 카운터 보기/[17:07] 매퍼 소스 보기/[18:41] 딜레이 카운터 확인/[19:25] 실행/[19:41] 카운터 살펴보기/[20:18] 웹 화면 보기/[20:41] 다수의 파일 출력/[21:37] Class MultipleOutputs/[23:15] 매퍼 소스 보기/[24:17] 리듀서 소스 보기/[25:07] 리듀스 매소드 보기/[26:00] 드라이버 클래스 살펴보기/[26:47] 실행/[26:56] 출발 지연과 도착 지연 분석 확인/[27:55] 파일 내용 확인/[28:17] 체인/[29:48] Class ChainMapper/[30:02] 매소드 보기/[30:11] Class ChainReducer/[30:56] 체인으로 구현한 코드 보기/[31:52] 세번째 매퍼 설정할 경우
- 07.38분 맵리듀스 정렬 구현
보조 정렬, 부분 정렬, 전체 정렬
책갈피 : [00:06] 정렬 구현/[01:19] 지난 시간 예제 결과확인/[02:15] 보조 정렬 순서/[03:07] 보조 정렬을 이용한 맵리듀스 프로그램 작성/[03:22] 복합키란?/[03:50] 복합키 사용/[04:15] 소스 보기/[04:43] toString 재정의/[05:57] 복합키 비교기 보기/[06:46] compare 메서드 구현/[08:20] 년도가 일치할 경우/[08:56] 파티셔너 보기/[10:03] 그룹키 비교기 구현/[10:58] 두개의 년도값 비교하는 코드 작성/[11:09] 매퍼,리듀서,드라이버 클래스 구현/[11:52] 매퍼 클래스 소스 보기/[12:09] 리듀서 소스 보기/[13:13] 리듀스 메서드 보기/[14:05] 드라이버 클래스 소스 보기/[14:43] 실행 후 결과 확인/[15:18] 예전에 실행한 job 보기/[16:45] 부분정렬/[16:52] 부분정렬 작동방식/[17:48] 부분정렬 프로그램 작성/[18:18] 시퀀스 파일 크리에이터 보기/[18:41] 주의 사항/[20:15] 매퍼 구현 뒤 run 메서드 보기/[21:03] 맵 리듀스 파일 실행/[21:52] 시퀀스 파일 생성 확인/[22:47] 맵 파일 생성 소스 보기/[24:22] job 실행 단계/[24:51] 출력 결과 조회/[25:11] 데이터 파일에 키와 값이 저장돼 있는지 확인/[25:48] 검색 프로그램 구현/[27:32] 해쉬파티셔너로 생성하는 이유/[28:36] 실행/[29:29] 로그 파일 제거/[29:48] 전체 정렬/[30:33] 전체 정렬 순서/[31:14] 주의 사항/[32:05] 전체 정렬 작동 방식/[32:42] 예제 보기/[34:07] 파티션 구성 정의/[34:37] InputSampler 종류/[36:05] 분산 캐시에 파티션 정보 등록/[36:21] 실행 후 결과 확인/[37:06] 정렬 확인
- 08.40분 조인과 맵리듀스 튜닝
주인 구현, 조인 준비, 맵-사이드 조인, 리듀스-사이드 조인, 셔플 튜닝
책갈피 : [00:07] 조인/[00:32] 조인을 위한 파일 내려받기/[01:26] 맵-사이드 조인/[02:12] 분산캐시/[03:50] 분산캐시의 작동 방식/[05:00] Class DistributedCache/[05:09] DistributedCache 사용 방법/[05:46] 잡 컨프 셋업/[06:29] 매퍼나 리듀서에서 분산캐시에 등록될 파일 사용과정/[06:46] 매퍼 구현/[09:15] 항공사 데이터 보기/[10:16] 드라이버 클래스 소스 보기/[11:20] 드라이버 클래스 실행/[11:46] 출력데이터 조회/[13:09] 리듀스-사이드 조인/[13:28] 리듀스-사이드 조인 데이터 흐름/[15:20] MultipleInputs/[15:45] 데이터보기/[16:56] 소스 보기/[18:25] 두번째 매퍼 보기/[19:11] 두번째 매퍼 소스 보기/[19:47] 리듀서 소스 보기/[21:30] 드라이버 클래스 구현 부분 보기/[22:07] 실행/[22:44] 출력 경로 조회/[23:37] 세미 조인/[23:52] 맵리듀스 튜닝/[25:15] 셔플/[25:56] 셔플 작업 과정 자세히 살펴보기/[26:07] 맵/[26:37] 스필/[27:56] 병합/[28:52] 복사/[30:11] 파일로 저장되는 두가지 특정 경우/[31:03] 정렬/[32:07] 리듀스/[33:43] 테스트/[34:04] 잡 실행/[34:59] 수정된 명령 보기/[35:15] 중간 과정 보기/[36:45] 결과 비교/[37:42] 각 카운터 비교/[38:07] 카운터 정보 보기/[39:34] 주의할 점
- 09.44분 맵리듀스 튜닝과 하둡 운영
콤바이너 클래스 적용, 맵 출력 데이터 압축, DFS 블록 사이즈 수정, JVM 재사용, 투기적 잡 실행, 네임노드 HA 구성, 파일시스템 상태 확인, HDFS 어드민 명령어
책갈피 : [00:05] 콤바이너 클래스 적용/[00:33] 소스 보기/[01:07] 드라이버 클래스 실행/[01:34] 구체적인 결과 확인/[02:38] 맵 출력 데이터 압축/[04:15] 소스 보기/[05:10] 실행/[05:15] gzip 적용 전과 후 비교/[05:30] snappy/[06:00] snappy 최신 버전 다운/[06:11] snappy 설치/[06:46] ArrivalDelayCount에 snappy 적용/[07:46] DFS 블록 사이즈 수정/[09:54] distcp 옵션 이용/[11:05] 결과 조회/[11:48] 32메가로 생성된 파일을 이용해 데이터 처리하기/[11:54] 드라이버 클래스 실행/[12:11] 결과 확인/[12:43] 결과 비교/[13:43] mapred-site.xml에서 제공하는 두개의 파라미터/[15:58] JVM 재사용/[18:00] 투기적 잡 실행/[19:48] 투기적 잡 실행 파라미터 보기/[21:56] 개별적인 잡에 대한 투기적 잡 실행/[22:37] 하둡 운영/[22:48] 네임노드의 HA 구성/[24:22] 하둡과 관련된 다양한 HA 구성방법/[25:00] 페이스북의 아바타노드/[26:11] 아바타노드를 이용한 네임노드 HA/[26:48] 백업 아바타 노드/[28:03] 클라이언트와 주키퍼 사이의 관계/[29:45] 파일시스템 상태 확인 방법/[30:15] fsck 명령어 실행/[30:48] 생성자 로그의 정보 보기/[31:15] over-replicated blocks/[31:26] under-replicated blocks/[31:48] mis-replicated blocks/[33:43] 벨런스 명령어/[34:52] HDFS 명령어 사용/[35:21] -report 옵션 사용/[35:30] 결과 확인/[36:42] HDFS 동작 방식/[37:44] -safemode/[38:45] -saveNamespace 옵션/[39:20] 실행/[40:21] 로그 보기/[41:07] 파일 저장 갯수 설정/[41:36] 디렉토리 생성/[41:45] -setQuota 입력/[42:14] 파일 풋 하기/[43:30] 파일 저장 용량 설정 방법
- 10.43분 하둡 운영
데이터 저장공간 관리, 데이터노드 제거 및 추가, 네임노드와 데이터노드 장애복구, 하둡 사용자 관리, 하둡 주요 포트
책갈피 : [00:02] 데이터 저장공간 관리/[00:24] 경로 관련 주요 설정값/[00:33] hadoop.tmp.dir/[00:40] fs.checkpoint.dir/[01:07] dfs.name.dir/[01:34] dfs.data.dir/[02:00] mapred.local.dir/[02:27] mapred.system.dir/[04:00] core-site.xml 보기/[04:30] 데이터노드 제거/데이터노드 추가/[06:15] hdfs-site.xml 파일 내용 보기/[07:12] 데이터 노드 제거 시 주의사항/[08:03] -refreshNodes 명령어/[09:09] 데이터 노드 추가 방법/[11:46] hdfs-site.xml 내용 보기/[12:35] 에러가 나는 이유/[13:24] 네임노드 장애 복구/[15:07] 구조 보기/[16:07] current 밑에 파일 설명/[17:11] 보조 네임노드 구조보기/[17:52] 보조 네임노드를 이용한 네임노드 장애 복구/[18:30] 오류 내용 보기/[20:37] 디렉토리 생성/[21:00] 네임노드 실행/[21:37] 하둡 전체 데몬 재실행/[22:22] NFS 를 이용한 장애 복구/[22:36] 네임노드 메타데이타 이중화/[22:48] 백업서버 준비/[23:32] hdfs-site.xml 설정 파일 수정/[23:56] 하둡 재구동/[24:11] 장애시 복구 순서/[25:48] 데이터노드 장애 복구/[26:56] 하둡 사용자 관리/[28:56] 하둡 주요 포트/[29:51] 하둡 싸이트에서 보기/[30:10] hdfs-site.xml 보기/[32:28] mapred-default.xml 보기/[33:35] 하둡 부가기능/[34:15] 하둡 스트리밍/[34:52] 하둡 스트리밍 사용 방법/[35:22] 하둡 설명 보기/[37:29] 하둡 스트리밍 실행 옵션 보기/[38:35] 필수는 아닌 옵션 보기/[39:05] -inputformat/[39:15] -outputformat/[39:29] -partitioner/[40:45] -verbose/[41:20] 제너릭 옵션 설명/[41:30] -conf/[41:45] -D/[42:07] -fs/[42:22] -jt/[43:00] -archives
- 11.37분 하둡 부가기능
하둡 스트리밍, 스트리밍 실행 옵션, 스틀리밍 구현, 잡스케줄러
책갈피 : [00:02] 하둡 스트리밍 구현/[01:07] 첫번째 job 구현/[01:45] 내용 보기/[03:21] 스트리밍 실행/[03:38] hadoop Map/Reduce Administration 보기/[03:53] Failed job 상세 보기/[04:15] 에러 부분 보기/[05:56] 명령어 파이프라인 사용/[06:23] 스크립트 파일로 명령어 작성/[07:00] 출력 결과 보기/[07:26] 두번째 job 구현/[10:01] 실행/[10:16] 출력 데이터 확인/[10:35] 파이썬을 이용한 스트리밍 구현/[11:22] 매퍼 역할을 할 스크립트/[11:46] 내용 보기/[13:18] ArrivalDelayReducer.py 보기/[15:11] 하둡 스트리밍 실행/[16:03] 주의사항/[16:51] 결과 파일 조회/[17:06] aggregate 패키지 이용/[17:22] 주요 클래스 보기/[18:56] 스트리밍에서 이용하기/[19:40] 파이썬 소스 보기/[20:18] 스트리밍 실행 화면/[20:56] 결과 파일 조회/[21:07] 히스토그램 값 구하기/[21:41] 실행 화면 보기/[22:22] 출력 결과 보기/[22:52] 잡 스케줄러/[24:06] 페어스케줄러/[24:52] 페어스케줄러 설치/[26:10] 하둡의 환경 설정 파일 수정/[26:55] 추가된 속성 보기/[27:41] 하둡 도큐먼트에서 속성 보기/[30:36] Advanced Parameters 보기/[33:28] 풀 설정 파일 정의/[34:05] 각 풀에 대한 정의/[34:59] 속성 정의/[36:09] 전체에 대한 속성 보기
- 12.39분 하둡 부가기능과 하이브
페어 스케줄러, 커패시티 스케줄러, contrib 패키지, 하이브 아키텍처, 하이브 설치, 하이브QL, 하이브 칼럼 타입
책갈피 : [00:08] 페어 스케줄러 적용/[00:20] job 수행되는 시간 확인/[01:48] 하둡 클러스터에 페어 스케줄러 적용/[02:07] job 트래커 재구동/[02:36] Fair Scheduler Administration 보기/[04:00] 성능 비교/[04:59] Map/Reduce History Viewer로 결과 확인/[06:30] 커패시티 스케줄러/[08:07] jar 파일 빌드/[08:43] mapred-site.xml 변경/[09:05] 커패시티 스케줄러 적용/[09:58] job 트래커 재구동/[10:11] 환경 설정 파일로 queue에 대한 설정하기/[10:58] capacity-scheduler.xml 보기/[11:31] 속성값 살펴보기/[12:03] maximum-capacity/[12:20] supports-priority/[12:33] minimum-user-limit-percent/[14:20] queueA 와 queueB 에 대한 설정 보기/[15:18] mapred-queue-acls.xml 보기/[15:31] acl/[16:30] queue에 대한 접근 권한 설정/[18:03] queueA와 queueB 설정화면/[18:26] 관리 화면에서 queue 조회/[19:07] 스케줄링 인포메이션 보기/[19:41] 커패시티 스케줄러 사용/[20:37] 실행/[21:36] 하이브/[22:21] 하이브 아키텍처/[23:56] 구성요소 보기/[24:26] 패키지 다운로드/[25:22] 여러 환경설정 파일 템플릿 보기/[25:52] 하둡의 홈 디렉토리 설정/[26:56] hive-default.xml 속성값 보기/[27:10] hive.metastore.warehouse.dir/[27:25] hive.exec.scratchdir/[27:48] ConnectionURL/[28:17] ConnectionDriverName/[28:37] ConnectionUserName/[29:29] hdfs에 경로 생성/[30:37] 실행/[30:56] 하이브 QL과 SQL과의 차이점/[32:45] 하이브 QL 쿼리문 작성/[33:19] 테이블 생성 내용/[33:45] 하이브 칼럼 타입/[34:07] create table 명령문 보기/[36:28] 실행 결과 보기/[36:35] external 키워드 추가/[37:35] describe 명령어/[38:22] drop 테이블
- 13.40분 하이브QL과 하둡 적용
데이터업로드, 하이브 내장집계함수, 하이브 내장함수, 조인, 조인 제약사항, 버킷활용, 하둡과 몽고DB 이용, 히둡 에코시스템 활용한 분석 플랫폼 구축, 빅데이터 기술 이용한 소셜 네트워크 데이터 분석
책갈피 : [00:09] 데이터 업로드/[00:39] 첫번째 라인 삭제한 이유/[01:11] 데이터 업로드 화면 보기/[02:07] hdfs 조회/[02:35] 데이터 정상 등록 확인/[04:00] 하이브 내장 집계 함수/[05:00] count(1)/[05:30] 결과 확인/[06:00] AVG/[06:42] 하이브 주요 내장함수/[08:18] regexp_replace/[10:22] get_json_object/[10:58] cast/[11:28] language manual 보기/[11:56] 조인/[12:52] 항공운항 지연 데이터와 항공사 코드 테이블 조인/[13:48] 데이터 업로드/[14:07] 조인하기/[15:03] 실행 결과 확인/[15:18] 두개 이상의 테이블 내부 조인으로 처리하기/[16:22] 조인 쿼리 작성/[17:37] 외부 조인 테스트/[18:33] 외부 조인 쿼리 실행/[19:37] 버킷 활용/[20:41] 버킷 활용 예제 보기/[21:11] 데이터 insert/[22:03] 실행 결과 확인/[22:55] 버킷 활용시 주의점/[23:11] 하둡의 적용 사례/[23:56] 하둡과 몽고디비 이용/[24:55] 스토리지 사용 추이 데이터 보기/[25:45] 몽고디비 살펴보기/[26:26] 완전 분산 모드 구성 예/[27:22] 하둡과 몽고디비 테스트 결과/[29:25] 몽고디비 결과/[30:45] 최종 시스템 구성/[31:37] 하둡 에코시스템 활용한 분석 플랫폼 구축 사례/[33:06] 분석 플랫폼의 요구사항/[33:19] 경제성 확보/[33:35] 동일한 처리 결과 확보/[33:52] 확장성과 실시간성 확보/[34:22] 새로운 데이타 분석 기법에 대한 수용력 확보/[35:22] 분석 시스템 구성/[37:00] 빅데이터 기술을 이용한 소셜 네트워크 데이터 분석 사례/[37:37] sns 데이터 분석 시스템 구성/[37:51] 각 구성요소 역할 보기
- 14.37분 하둡 데이터 이동 part1
인그레스, 이그레스, 플룸 아키텍처, 스크라이브 아키텍처, 추크와 아키텍처, 하둡에 로그파일 집어넣기
책갈피 : [00:05] 하둡 데이터의 이동/[00:54] 하둡 데이터 인그레스 및 이그레스/[02:15] 자동화/[03:23] 주요 인그레스 및 이그레스 고려 요소/[03:38] 멱등성/[04:25] 취합/[04:57] 데이터 형식 변형/[06:00] 복구 가능성/[06:29] 정확성/[07:15] 리소스 소비 및 성능/[08:03] 모니터링/[08:41] 하둡으로 데이터 옮기기/[08:45] 하둡에 로그파일 집어넣기/[09:28] 플룸 아키텍처/[10:05] 추크와 아키텍처/[10:54] 스크라이브 아키텍처/[11:41] 추크와, 플룸과 스크라이브의 차이점/[12:11] 하둡으로 데이터를 옮길때 쓸수 있는 주된 방법/[12:50] 플룸을 활용한 hdfs의 시스템들의 로그 수집 방법/[13:41] 전체 플룸 배포 환경/[14:35] 플룸 설치 관련 페이지 보기/[15:22] 인스톨 방법/[15:41] 플룸 실행 방법/[16:25] 플룸 설치 모습 보기/[16:41] conf 디렉토리 가기/[17:25] 플룸 마스터 데몬 시작/[17:55] 플룸 노드 데몬 시작 화면/[18:07] 호스트/[18:15] 플룸 에이전트/[18:44] 플룸 컬렉터/[20:14] lgo 압축을 이용해 클러스터를 설정한 경우/[21:07] 컬렉터로 노드 실행/[21:55] 플룸 마스터에서 설정 변경하는 방법/[22:07] UI를 사용한 설정법/[24:22] 마스터 페이지 보기/[25:18] flume shell 실행/[26:18] 핵심 개념 살펴보기/[26:32] 플룸 데이터 소스/[27:11] 플룸 소스 카탈로그/[29:30] 에이전트 싱크/[29:56] 데이터싱크 안정성 모드/[30:52] 장애극복 모드/[32:07] 사용가능한 에이전트 싱크/[32:51] 플룸 유저가이드 보기/[33:45] 플룸 컬렉터 데이터 싱크/[34:50] output Bucketing 항목 보기/[35:09] 출력 포맷 보기
- 15.45분 하둡 데이터 이동 part2
반구조화된 데이터 및 바이너리 파일 집어넣고 가져오기, 파일슬러퍼, 우지, 데이터베이스로부터 데이터 풀링, 맵리듀스활용, 스쿱
책갈피 : [00:23] 반구조화된 데이터 및 바이너리 파일 집어넣고 가져오기/[01:32] 파일 슬러퍼/[01:49] 파일 슬러퍼 사용 예제/[02:30] 슬러퍼 환경 설정 파일/[03:30] 예제를 통해 내용 살펴보기/[05:40] 슬러퍼 실행 부분/[06:00] 슬러퍼의 중요한 특징/[06:46] 두번째 예제 보기/[08:33] 슬러퍼에서 사용하는 대상 디렉토리 밑 파일 명을 동적으로 제어하는 방법/[09:03] 세번째 예제 보기/[11:09] 결과 로그 확인/[12:20] 우지를 활용한 정기적인 인그레스 활동 예약/[13:35] 우지 란?/[14:28] 우지에서 사용하는 조율기의 xml 설정파일/[14:48] coordinator.xml 파일 내용 보기/[15:58] 실제 작업 흐름 보기/[16:48] workflow.xml 파일 내용 보기/[18:03] 속성 파일 정의/[18:26] 내용 보기/[19:21] job 중단 하기/[19:52] 데이터베이스로부터 데이터 풀링하기/[20:30] 하둡의 역할/[21:26] 내장 맵리듀스 클래스 사용법/[21:33] DBInputFormat 사용/[22:11] 예제 살펴보기/[22:44] 스트링 배열 보기/[22:51] readFields 메서드 보기/[23:33] 맵리듀스 job 소스 보기/[24:07] runJob 메서드 보기/[25:26] DBInputFormat.setInput 보기/[25:45] 맵 클래스 보기/[26:14] DB 구조 살펴보기/[26:52] DBImportMapReduce 실행/[27:41] avro 파일의 내용/[28:03] DBInputFormat 사용시 몇가지 주의 사항/[29:37] 스쿱 불러오기/[30:00] 스쿱이란?/[30:37] 커넥터/[31:37] 스쿱 명령 사용하기/[32:30] 스쿱 실행 전 주의점/[33:35] 실행 결과 보기/[34:15] 대용량의 데이터 불러올 경우/[34:57] 압축 파일 사용시 주의점/[35:15] 예제 살펴보기/[36:13] 쿼리 보기/[36:58] 두가지 예제 더 보기/[37:45] 고속 커넥터/[38:15] 스쿱을 활용해 데이터를 하이브 테이블로 불러오기/[39:37] 서로 다른 하이브 파티션 생성하기/[40:52] HBase/[41:34] HBase Shell 명령어 보기/[42:57] 맵 리듀스의 데이터 소스로서 HBase를 사용하는 경우/[43:46] 기본 설정 값 확인
- 16.40분 하둡 데이터 이동 part3
하둡 밖으로 데이터 옮기기, 로컬 파일시스템으로의 이그레스, 데이터베이스, HBase, 하이브를 활용한 데이터 분석, 로그 파일 로딩, UDF 및 압축 파티션 테이블 쓰기
책갈피 : [00:08] 하둡 밖으로 데이터 옮기기/[01:33] 하둡에서 관계형 데이터 베이스로 데이터를 쓰는 방법/[02:44] 작업 과정 보기/[03:30] export-dir 인자/[04:00] 예제 보기/[05:00] 스쿱의 옵션/[05:15] input-enclosed-by/[05:27] input-escaped-by/[05:45] input-fields-terminated-by/[05:55] input-lines-terminated-by/[06:30] 멱등적 내보내기/[07:45] 고속 커넥트를 이용해 직접 내보내기 예제/[08:35] mysql import를 활용한 멱등적 내보내기 예제/[09:35] HBase로 데이터 옮기기/[10:03] HBase shell 에서 테이블 만들기/[11:22] hbase 데이터 싱크 활용하기/[12:54] 메인 보기/[13:24] 맵 리듀스 잡 실행/[14:37] 하이브 활용/[15:01] 하이브 활용 예제 살펴보기/[16:29] 직렬화 및 역직렬화(SerDe)/[17:37] 직렬화 및 역직렬화 동작 살펴보기/[18:03] 테이블 생성/[19:22] 테이블 조회/[19:45] 정규식 작성시 주의할점/[20:11] 역직렬화의 과정/[21:41] RegexSerDe 작동 보기/[22:15] RegexSerDe class/[24:06] deserialize 코드보기/[24:37] 하이브 직렬화 인터페이스 보기/[24:56] getSerializedClass 살펴보기/[25:11] Serialize 살펴보기/[26:44] udf 및 압축 파티션 테이블 쓰기/[27:33] hiveql 보기/[29:03] 로그테이블로 부터 udf 사용하기/[29:37] 명령 보기/[30:11] 버킷 설정 두가지 방법/[32:06] insert 문 보기/[33:29] hive_default_partition/[33:52] 출력값 살펴보기/[34:07] 테이블의 레이아웃 구조 보기/[35:22] 버켓팅을 하는 이유/[36:22] udf 두가지 작성 방법/[37:00] udf 클래스 살펴보기/[37:52] 질의 위치 udf 소스 보기/[38:50] evaluate 메서드 보기/[39:45] description 보기
- 17.44분 하이브 활용과 피그
하이브를 활용한 데이터 분석, 하이브 조인 튜닝, 그루핑, 정렬, Explain, 피그 기본, 피그로 데이터 로드
책갈피 : [00:05] 하이브 조인 튜닝/[01:17] 조인 작업 속도 높이는 옵션 보기/[01:26] 리파티션 조인/[02:07] 테스트 테이블 보기/[03:35] outer join 보기/[03:53] left outer join/[04:42] right outer join/[05:15] Full outer join/[06:13] 복제 조인/[07:30] 맵 사이드 조인 수행 조건/[08:50] 하이브의 자동 복제 기능 활성화/[10:50] 세미 조인/[11:28] skewjoin/[13:03] 그루핑, 정렬, explain/[14:26] explain 키워드/[14:41] explain 출력값 보기/[15:58] 스테이지 계획/[16:56] viewed_movies/[17:03] 입력 부분 보기/[17:21] 리듀스 출력 값 확인/[19:45] 피그/[21:21] 피그 기본/[21:48] piggybank/[22:41] 피그 설치 뒤 테스트/[23:33] 피그 아키텍처/[24:21] 피그 라틴/[24:48] 피그 라틴 데이터 타입 보기/[25:36] dump 명령어 사용 예/[26:44] describe/[27:03] 연산자와 함수/[28:10] load 함수/[28:37] 평가 함수/[29:11] 필터 함수/[29:45] 저장 함수/[30:15] 인터렉티브 및 비인터렉티브 피그/[31:33] 고급 피그 기법/[31:52] 악의적 웹사이트 사용을 찾기 위한 피그 파이프라인/[32:14] 데이터 로드/[33:52] 완전한 기능을 갖춘 로그 로더 제공 방법/[35:04] 간단한 문자열 토큰화/[36:22] 소스 보기/[36:50] 메서드 살펴보기/[38:22] setTuple 메서드/[40:00] 로드 하기/[40:52] 내용 보기/[41:12] 간단한 연산 수행/[41:59] 커먼 로그 로드 펑션을 사용해 로드 하는 법 알아보기
- 18.42분 피그
피그 파이프라인, 필터링 및 투영, UDF 그루핑 및 취합, UDF 활용 위치 찾기, 스트리밍, 조인, 정렬, 데이터저장
책갈피 : [00:57] 필터링/[01:11] 투영/[01:29] 투영 과정/[02:07] 필터링 과정/[03:50] 데이터에 정교한 필터링 적용하기/[04:30] 내용 보기/[05:41] 필터링 적용/[06:55] 그루핑/[07:46] 필터 연산 결과로 ip 주소별로 로그 엔트리 그루핑하고 계산하기/[08:09] 그룹 결과 보기/[09:15] 횟수 세기/[09:35] 결과 확인/[10:11] 예제 살펴보기/[11:01] 결과 확인/[12:18] 대수 함수/[12:48] getInitial/[12:56] getIntermed/[13:01] getfinal/[13:41] 예제 보기/[14:13] explain 결과 보기/[15:39] accumulater 함수/[16:32] 작업 상황 확인/[17:10] evalFunc/[17:33] 단순/[17:48] 취합/[18:37] 대수/[19:22] 집적/[20:10] 로그 파일에서 특정 ip의 위치를 판단하고 싶을때/[21:03] 소스 보기/[22:56] exec 메소드/[23:41] 입력 타입 지정/[24:07] udf 실행/[25:37] 소스 보기/[26:33] 문자 형태와 숫자 형태 아이피 모두 지원하는 방법/[27:52] funclist.add 부분 보기/[28:41] 지원하지 않는 타입의 udf를 사용할 경우/[29:18] 스트리밍/[30:11] 맵리듀스와 연계한 피그의 스트리밍 흐름/[30:37] 스트리밍 피그 인터페이스/[31:11] 스크립트 내용 보기/[33:07] 조인/[34:52] using 'replicated'/[35:07] 정렬/[36:05] 저장/[36:30] 시퀀스 파일로 저장하는 이유/[36:45] 시퀀스 파일 스토어 펑션/[39:06] outputFormat/[40:07] 출력값 쓰기/[40:49] 파일 읽어오기/[41:07] 커스텀 로드 펑션 실행
- 19.40분 피그와 그런치 및 그 외 기술
사용자 작업 흐름 최적화, LIMIT, SAMPLE, ILLUSTRATE, EXPLAIN, 성능, 그런치
책갈피 : [00:57] 사용자 작업 흐름 최적화/[01:34] LIMIT/[01:38] SAMPLE/[01:47] ILLUSTRATE/[02:07] DESCRIBE/[02:23] LIMIT 연산자 사용법/[04:25] SAMPLE 연산자 사용법/[05:13] RandomSampleLoader/[05:41] RandomSampleLoader 인자 보기/[05:46] ILLUSTRATE 연산자 사용법/[07:30] EXPLAIN 연산자 사용법/[08:43] 예제 보기/[09:11] Logical Plan/[10:28] status 보기/[11:22] physical Plan/[12:01] Map Reduce Plan/[12:39] -dot 옵션과 함께 실행하기/[13:43] 피그의 성능/[14:56] 필터 예제/[15:46] 조인 최적화/[16:22] 샘플링과 리밋 예제/[16:45] 대수 및 누적 UDF 사용 방법/[17:48] 연산병합/[18:14] 복제조인 및 스큐조인/[19:40] 다중리듀서/[20:29] PARALLEL 키워드/[20:51] default_parallel 키워드/[21:15] MapRed-site.xml의 MapRed.reduce.tasks/[21:41] 피그에서 리듀서를 사용하는 연산자/[22:36] 크런치 및 그 외 기술/[23:56] 크런치/[24:26] 데이터 컬렉션/[24:37] 타입매핑 시스템/[24:55] 컬렉션 조작 연산/[25:22] 파이프라인 클래스 메서드 보기/[26:37] 컬렉션 다이어그램/[27:55] 각 컬렉션 클래스의 연산/[29:33] dofn 클래스/[29:52] configure 메서드/[30:07] initialize 메서드/[30:11] process/[30:22] cleanup/[31:00] 커스텀 연산 정의/[32:27] 텍스트 파일 토큰화를 위한 크런치 파이프라인/[33:22] simpleTokenize 클래스/[34:30] process 메서드/[35:52] 크런치에서 완전한 맵 리듀스 잡 실행하기/[36:22] 역 인덱스 생성하는 크런치 코드/[37:07] 함수 살펴보기/[38:34] uniqueValues 메서드 살펴보기
- 20.44분 데스트와 디버깅
로그에서 가장 인기있는 URL 찾기, 조인, 케스케이딩, 튜플, 파이프, 탭, 테스트, 사용자 공간 문제 디버깅, 맵리듀스 주의 사항
책갈피 : [00:03] 로그에서 가장 인기있는 URL 찾기/[00:57] popularlinks 소스 보기/[02:59] initialize를 통한 선언 초기화/[03:29] 예외처리/[04:00] 에러처리 부분 보기/[04:56] 필터링 및 투영 관련 작업/[05:30] 실행 결과 보기/[05:44] 조인/[06:46] 크런치 조인 파이프라인/[07:14] 유저와 로그를 조인하는 클래스 소스 보기/[08:11] 로그 문자열을 테이블로 변환하는 함수 호출/[09:05] 조인할때 중요한 점/[10:26] 조인 실행 결과/[10:46] 캐스케이딩/[11:16] 캐스케이딩을 활용한 소스/[13:11] count/[13:43] flowconnector/[14:41] 테스트와 디버깅/[15:33] 테스트 요소 살펴보기/[15:50] 테스트 주도 개발/[16:32] 코드 설계/[17:07] 예제 살펴보기/[18:02] 테스트 데이터/[19:00] MRUnit 을 이용한 단위 테스트 작성/[19:56] 맵 테스트 작성/[21:32] withInput 메서드/[22:07] 주의할 점/[23:02] 결과 보기/[23:44] MRUnit 을 이용하고, 실패시 제이유닛에서 제공하는 정보도 활용할 경우/[24:07] run 메서드/[25:40] MRUnitJUnitAsserts 클래스 보기/[26:52] 맵 및 리듀스 함수 함께 테스트 하는 방법 살펴보기/[28:11] 파이프 라인 테스트 살펴보기/[29:56] 사용자 공간 문제 디버깅/[30:18] 로그 살펴보기/[31:18] ui에 접근할수 없는 경우/[32:06] 테스크 출력 값 보기/[33:52] 코드가 오작동 하게 만드는 입력 데이터 따로 떼어내기/[35:37] 히스토리 결과 보기/[37:15] 맵리듀스 주의 사항/[37:44] 지나치게 많은 캐시/[38:43] 큰 입력 레코드/[39:34] 지나치게 많은 외부 리소스/[40:14] 투기적 실행 경쟁 조건/[41:14] 잘못된 입력 값 처리안함/[41:52] 하둡 버전 및 설정이 다른 클러스터/[42:27] 대규모 데이터셋 테스트 및 디버깅/[43:00] 파싱 및 로직 에러의 미처리/[43:21] 지나치게 많은 카운터
'추천강의' 카테고리의 다른 글
123D 교육 추천 강좌 (0) | 2018.04.04 |
---|---|
CINEMA4D 추천 강의 교육 (0) | 2018.04.04 |
MAVEN IT전문교육 강의 추천 (0) | 2018.04.04 |
SOLIDWORKS 강의 학원 추천 (0) | 2018.03.30 |
UGNX 추천 교육 강좌 (0) | 2018.03.30 |