데이터 파이프라인 핵심 가이드 또는 감각과 사물
땅끝
2024-01-25 08:44
504
0
본문
데이터 파이프라인 핵심 가이드
도서명 : 데이터 파이프라인 핵심 가이드
저자/출판사 : 제임스,댄스모어, 위키북스
쪽수 : 236쪽
출판일 : 2022-02-18
ISBN : 9791158393045
정가 : 20000
▣ 01장: 데이터 파이프라인 소개
데이터 파이프라인이란?
누가 파이프라인을 구축할까?
___SQL과 데이터 웨어하우징 기초
___파이썬 그리고/또는 자바
___분산 컴퓨팅
___기본 시스템 관리
___목표 지향적 사고방식
왜 데이터 파이프라인을 구축할까?
어떻게 데이터 파이프라인을 구축할까?
▣ 02장: 최신 데이터 인프라
데이터 소스의 다양성
___소스 시스템 소유권
___수집 인터페이스 및 데이터 구조
___데이터 사이즈
___데이터 클렌징 작업과 유효성 검사
___소스 시스템의 지연 시간 및 대역폭
클라우드 데이터 웨어하우스 및 데이터 레이크
데이터 수집 도구
데이터 변환 및 모델링 도구
워크플로 오케스트레이션 플랫폼
___방향성 비순환 그래프
데이터 인프라 커스터마이징
▣ 03장: 일반적인 데이터 파이프라인 패턴
ETL과 ELT
ETL을 넘어선 ELT의 등장
EtLT 하위 패턴
데이터 분석을 위한 ELT
데이터 과학을 위한 ELT
데이터 제품 및 머신러닝을 위한 ELT
___머신러닝 파이프라인의 단계
___파이프라인에 피드백 통합
___ML 파이프라인에 대한 추가 자료
▣ 04장: 데이터 수집: 데이터 추출
파이썬 환경 설정
클라우드 파일 스토리지 설정
MySQL 데이터베이스에서 데이터 추출
___전체 또는 증분 MySQL 테이블 추출
___MySQL 데이터의 이진 로그 복제
PostgreSQL 데이터베이스에서 데이터 추출
___전체 또는 증분 Postgres 테이블 추출
___Write-Ahead 로그를 사용한 데이터 복제
MongoDB에서 데이터 추출
REST API에서 데이터 추출
카프카 및 Debezium을 통한 스트리밍 데이터 수집
▣ 05장: 데이터 수집: 데이터 로드
Amazon Redshift 웨어하우스를 대상으로 구성
Redshift 웨어하우스에 데이터 로드
___증분 및 전체 로드
___CDC 로그에서 추출한 데이터 로드
Snowflake 웨어하우스를 대상으로 구성3
Snowflake 데이터 웨어하우스에 데이터 로드
파일 스토리지를 데이터 레이크로 사용
오픈 소스 프레임워크
상업적 대안
▣ 06장: 데이터 변환하기
비문맥적 변환
___테이블에서 레코드 중복 제거
___URL 파싱
언제 변환할 것인가, 수집 중 혹은 수집 후?
데이터 모델링 기초
___주요 데이터 모델링 용어
___완전히 새로 고침 된 데이터 모델링
___완전히 새로 고침 된 데이터의 차원을 천천히 변경
___증분 수집된 데이터 모델링
___추가 전용(Append-only) 데이터 모델링
___변경 캡처 데이터 모델링
▣ 07장: 파이프라인 오케스트레이션
___방향성 비순환 그래프
아파치 에어플로우 설정 및 개요
___설치 및 구성
___에어플로우 데이터베이스
___웹 서버 및 UI
___스케줄러
___실행기(Executors)
___연산자(Operators)
에어플로우 DAG 구축
___간단한 DAG
___ELT 파이프라인 DAG
추가 파이프라인 작업
___경고 및 알림
___데이터 유효성 검사
고급 오케스트레이션 구성
___결합된 파이프라인 작업 대 결합되지 않은 파이프라인 작업
___DAG를 분할해야 하는 경우
___센서로 여러 DAG 조정
관리형 에어플로우 옵션
기타 오케스트레이션 프레임워크
일찍 그리고 자주 검증할 것
▣ 08장: 파이프라인의 데이터 검증
___소스 시스템 데이터 품질
___데이터 수집 위험
___데이터 분석가 검증 활성화
간단한 검증 프레임워크
___유효성 검사기 프레임워크 코드
___검증 테스트의 구조
___검증 테스트 실행
___에어플로우 DAG에서의 사용
___파이프라인을 중단해야 할 때와 경고하고 계속해야 할 때
___프레임워크의 확장
검증 테스트 예제
___수집 후 중복된 레코드
___수집 후의 예기치 않은 행 개수
___지표 값 변동
상용 및 오픈 소스 데이터 검증 프레임워크
소스 시스템의 변경 사항 처리
▣ 09장: 파이프라인 유지 관리 모범 사례
___추상화 도입
___데이터 계약 유지 관리
___Schema-on-Read의 고려사항
확장 복잡성
___데이터 수집 표준화
___데이터 모델링 로직의 재사용
___종속성 무결성 보장
중요 파이프라인 지표
▣ 10장: 파이프라인 성능 측정 및 모니터링
데이터 웨어하우스 준비
___데이터 인프라 스키마
성능 데이터 로깅 및 수집
___에어플로우에서 DAG 실행 기록 수집
___데이터 유효성 검사기에 로깅 추가
성능 데이터 변환
___DAG 성공률
___시간 경과에 따른 DAG 런타임 변경
___검증 테스트 볼륨 및 성공률
성능 파이프라인 조정
___DAG의 성능
성능 투명성
감각과 사물
도서명 : 감각과 사물
저자/출판사 : 김은성, 갈무리
쪽수 : 352쪽
출판일 : 2022-01-20
ISBN : 9788961952903
정가 : 20000
들어가며 5
1장 서론 : 사회과학의 감각적, 물질적 전환 12
1부 감각과 사물로 읽는 도덕과 시민권
2장 코로나19 감시와 도덕의 물질성 54
3장 아파트 층간소음 갈등과 소리 시민권 91
2부 감각과 사물로 읽는 에너지 전환
4장 풍수와 무속신앙 그리고 풍력발전 갈등 129
5장 장소 파괴의 기억, 감각, 그리고 풍력발전 갈등 169
3부 감각과 사물로 읽는 정치와 경제
6장 한국 사회운동의 물질문화 202
7장 집회 감시 채증 카메라와 소음 측정기의 감각 권력 241
8장 농산물 경매의 감각과 인공물 275
나가며 317
참고문헌 324
인명 찾아보기 343
용어 찾아보기 345
댓글목록0