데이터 과학 효율을 높이는 데이터 클리닝
로즈
2023-11-24 05:31
246
0
본문
데이터 과학 효율을 높이는 데이터 클리닝
도서명 : 데이터 과학 효율을 높이는 데이터 클리닝
저자/출판사 : 데이비드,메르츠,저자,글,유동하,번역, 에이콘출판
쪽수 : 628쪽
출판일 : 2023-01-31
ISBN : 9791161757094
정가 : 40000
1부. 데이터 수집
1장. 테이블 형식
__정리
__CSV
____온전성 검사
____좋은 데이터, 나쁜 데이터, 텍스트 데이터
______나쁜 데이터
______좋은 데이터
__유해하다고 간주되는 스프레드시트
__SQL RDBMS
____데이터 타입 다듬기
____R에서 반복
____SQL이 잘못되는 위치(및 이것을 확인하는 방법)
__기타 형식
____HDF5와 NetCDF-4
______도구와 라이브러리
____SQLite
____아파치 파켓
__데이터 프레임
____스파크/스칼라
____판다스와 파생된 래퍼
____Vaex
____R의 데이터 프레임(Tidyverse)
____R의 데이터 프레임(data.table)
____흥미로운 Bash
__연습
____엑셀 데이터 정리
____SQL 데이터 정리
__대단원
2장. 계층적 형식
__JSON
____JSON의 모습
____NaN 처리와 데이터 타입
____JSON Lines
____GeoJSON
____깔끔한 지리
____JSON 스키마
__XML
____사용자 레코드
____키홀 마크업 언어
__구성 파일
____INI와 플랫 사용자 정의 형식
____TOML
____YAML
__NoSQL 데이터베이스
____문서 지향 데이터베이스
______누락된 필드
______비정규화와 비정규화의 불만
____키/값 저장소
__연습
____채워진 영역 탐색
____관계형 모델 생성
__대단원
3장. 데이터 소스의 목적 변경
__웹 스크래핑
____HTML 테이블
____테이블 형식이 아닌 데이터
____커맨드라인 스크래핑
__PDF
__이미지 형식
____픽셀 통계
____채널 조작
____메타데이터
__바이너리 직렬화된 데이터 구조
__사용자 정의 텍스트 형식
____구조화된 로그
____문자 인코딩
__연습
____NPY 파서 향상
____웹 트래픽 스크래핑
__대단원
2부. 오류의 변천
4장 이상 징후 감지
__결측 데이터
____SQL
____계층적 형식
____센티넬
__잘못 코딩된 데이터
__고정된 한도
__아웃라이어
____z-스코어
____사분위수 범위
__다변량 아웃라이어
__연습
____유명한 실험
____철자가 틀린 단어
__대단원
5장. 데이터 품질
__결측 데이터
__편향적인 트렌드
____편향 이해
____편향 감지
____기준선과 비교
____벤포드의 법칙
__클래스 불균형
__정규화과 스케일링
____머신러닝 모델 적용
____스케일링 기술
____요인 및 샘플 가중치
__주기성과 자기 상관관계
____도메인 지식 트렌드
____발견된 주기
__비스포크 검증
____콜레이션 검증
____트랜스크립션 검증
__연습
____데이터 특성화
____오버샘플링된 여론 조사
__대단원
3부. 수정과 참조
6장. 값 보정
__전형적인 값 보정
____전형적인 테이블 형식 데이터
____지역성 보정
__트렌드 보정
____트렌드 타입
____더 크게 얽힌 시계열
______데이터 이해
______사용할 수 없는 데이터 제거
______일관성 보정
______보간법
____비시간적 트렌드
__샘플링
____언더샘플링
____오버샘플링
__연습
____대체 트렌드 보정
____다중 특징 밸런싱
__대단원
7장. 피처 엔지니어링
__날짜/시간 필드
____날짜 시간 만들기
____규칙성 부여
____중복된 타임스탬프
____타임스탬프 추가
__문자열 필드
____퍼지 매칭
____명시적 범주
__문자열 벡터
____분해
____로테이션과 화이트닝
____차원 축소
____시각화
__양자화와 이진화
__원핫 인코딩
__다항식 특징
____합성 특징 생성
____특징 선택
__연습
____간헐적 발생
____레벨 특성화
__대단원
4부. 부록
A. 마치며
__여러분이 아는 것
__여러분이 아직 모르는 것
B. 용어 사전
도서명 : 데이터 과학 효율을 높이는 데이터 클리닝
저자/출판사 : 데이비드,메르츠,저자,글,유동하,번역, 에이콘출판
쪽수 : 628쪽
출판일 : 2023-01-31
ISBN : 9791161757094
정가 : 40000
1부. 데이터 수집
1장. 테이블 형식
__정리
__CSV
____온전성 검사
____좋은 데이터, 나쁜 데이터, 텍스트 데이터
______나쁜 데이터
______좋은 데이터
__유해하다고 간주되는 스프레드시트
__SQL RDBMS
____데이터 타입 다듬기
____R에서 반복
____SQL이 잘못되는 위치(및 이것을 확인하는 방법)
__기타 형식
____HDF5와 NetCDF-4
______도구와 라이브러리
____SQLite
____아파치 파켓
__데이터 프레임
____스파크/스칼라
____판다스와 파생된 래퍼
____Vaex
____R의 데이터 프레임(Tidyverse)
____R의 데이터 프레임(data.table)
____흥미로운 Bash
__연습
____엑셀 데이터 정리
____SQL 데이터 정리
__대단원
2장. 계층적 형식
__JSON
____JSON의 모습
____NaN 처리와 데이터 타입
____JSON Lines
____GeoJSON
____깔끔한 지리
____JSON 스키마
__XML
____사용자 레코드
____키홀 마크업 언어
__구성 파일
____INI와 플랫 사용자 정의 형식
____TOML
____YAML
__NoSQL 데이터베이스
____문서 지향 데이터베이스
______누락된 필드
______비정규화와 비정규화의 불만
____키/값 저장소
__연습
____채워진 영역 탐색
____관계형 모델 생성
__대단원
3장. 데이터 소스의 목적 변경
__웹 스크래핑
____HTML 테이블
____테이블 형식이 아닌 데이터
____커맨드라인 스크래핑
__PDF
__이미지 형식
____픽셀 통계
____채널 조작
____메타데이터
__바이너리 직렬화된 데이터 구조
__사용자 정의 텍스트 형식
____구조화된 로그
____문자 인코딩
__연습
____NPY 파서 향상
____웹 트래픽 스크래핑
__대단원
2부. 오류의 변천
4장 이상 징후 감지
__결측 데이터
____SQL
____계층적 형식
____센티넬
__잘못 코딩된 데이터
__고정된 한도
__아웃라이어
____z-스코어
____사분위수 범위
__다변량 아웃라이어
__연습
____유명한 실험
____철자가 틀린 단어
__대단원
5장. 데이터 품질
__결측 데이터
__편향적인 트렌드
____편향 이해
____편향 감지
____기준선과 비교
____벤포드의 법칙
__클래스 불균형
__정규화과 스케일링
____머신러닝 모델 적용
____스케일링 기술
____요인 및 샘플 가중치
__주기성과 자기 상관관계
____도메인 지식 트렌드
____발견된 주기
__비스포크 검증
____콜레이션 검증
____트랜스크립션 검증
__연습
____데이터 특성화
____오버샘플링된 여론 조사
__대단원
3부. 수정과 참조
6장. 값 보정
__전형적인 값 보정
____전형적인 테이블 형식 데이터
____지역성 보정
__트렌드 보정
____트렌드 타입
____더 크게 얽힌 시계열
______데이터 이해
______사용할 수 없는 데이터 제거
______일관성 보정
______보간법
____비시간적 트렌드
__샘플링
____언더샘플링
____오버샘플링
__연습
____대체 트렌드 보정
____다중 특징 밸런싱
__대단원
7장. 피처 엔지니어링
__날짜/시간 필드
____날짜 시간 만들기
____규칙성 부여
____중복된 타임스탬프
____타임스탬프 추가
__문자열 필드
____퍼지 매칭
____명시적 범주
__문자열 벡터
____분해
____로테이션과 화이트닝
____차원 축소
____시각화
__양자화와 이진화
__원핫 인코딩
__다항식 특징
____합성 특징 생성
____특징 선택
__연습
____간헐적 발생
____레벨 특성화
__대단원
4부. 부록
A. 마치며
__여러분이 아는 것
__여러분이 아직 모르는 것
B. 용어 사전
댓글목록0