데이터 사이언티스트 실전 노트
땅끝
2024-01-05 08:48
167
0
본문
데이터 사이언티스트 실전 노트
도서명 : 데이터 사이언티스트 실전 노트
저자/출판사 : 이지영, 비제이퍼블릭
쪽수 : 472쪽
출판일 : 2022-06-29
ISBN : 9791165921521
정가 : 30000
저자 소개
서문
베타 리더 추천사
이 책의 구성
1장 데이터 사이언티스트 이해하기
1.1 데이터 직무 알아보기
1.1.1 데이터 직무 세 가지: 데이터 분석가, 데이터 엔지니어, 데이터 사이언티스트
1.1.2 데이터 직무별 갖춰야 할 필수 능력
1.2 데이터 사이언티스트를 왜 하필 데이터 사이언티스트라고 할까
1.2.1 회사가 데이터 사이언티스트에게 바라는 점
1.2.2 진짜 데이터 사이언티스트가 갖춰야 할 역량
1.3 데이터 사이언티스트를 희망한다면 이것부터 살펴라
1.3.1 관련 전공자와 석·박사를 우대하는 현실
1.3.2 체크리스트로 보는 나는 무엇을 키워야 할까
2장 데이터 사이언티스트에서 “데이터”
2.1 데이터 유형
2.1.1 정형 데이터(Structured Data)
2.1.2 비정형 데이터(Unstructured Data)
2.1.3 반정형 데이터(Semi-structured Data)
2.1.4 내게 필요한 데이터 유형은 무엇일까?
2.2 데이터에서 확인해야 할 사항
2.2.1 4가지 상황에서 살펴본 데이터 크기(Size)
2.2.2 데이터의 값에 따른 종류
2.2.3 결측치(Missing Value)
2.2.4 중복 데이터
2.2.5 식별키(Prime Key, Primary Key)
2.2.6 상황으로 살펴보는 스키마 생성 예시
2.3 데이터 합치기
2.3.1 데이터프레임 결합: pd.merge()
2.3.2 데이터프레임 결합: df_left.join(df_right, ...)
2.3.3 여러 데이터프레임 연결: pd.concat()
2.3.4 데이터프레임, 배열, 리스트, 딕셔너리 연결: .append()
2.3.5 상황으로 살펴보는 데이터 합치기 활용
3장 데이터 사이언티스트에서 “사이언티스트”
3.1 데이터 사이언티스트는 무엇을 하는 사람인가
3.1.1 질문을 통해 문제점 찾기
3.1.2 수학과 통계 얼마나 잘해야 할까
3.2 기본 통계로 질문자 되기
3.2.1 평균인 μ와 , 무엇이 다를까?
3.2.2 수학과 통계는 무엇이 다를까?
3.2.3 확률, 가능도, 최대 가능도 추정, 통계 차이는?
3.2.4 통계 vs. 머신러닝 그리고 모수 vs. 비모수 차이는 무엇일까?
3.2.5 정규분포를 포함한 분포는 결국 OO이다
3.2.6 분포는 무엇으로 결정될까?
3.2.7 중심경향값을 계산하는 대표적인 세 가지는 무엇일까?
3.2.8 중심경향을 제외한 분포 파악에 필요한 통계치는 무엇일까?
3.2.9 적률로 이해하는 분포 특징 4가지
3.2.10 피처 스케일링할 것인가, 말 것인가? 지도학습 사용 목적으로 판단하기
3.2.11 피처 스케일링 방법 중 선택 기준이 있을까?
3.2.12 꼭 분포를 바꿔야 할까? 로그 변환, 파워 변환에서 손실과 이익을 따져 보기
3.2.13 중심극한정리에서 시작하는 추리통계
3.2.14 [가설검정 (1) - 가설 설정] 귀무가설을 ?? =0이라고 하면 안 되는 이유
3.2.15 [가설검정 (2) - 유의수준] 가설을 선택하는 기준 & 선택에 따른 오류
3.2.16 [가설검정 (3) - 검정 통계량] 통계방법 선택하는 방법
3.2.17 [가설검정 (4) - α vs. p-value, 임계치 vs. 검정 통계량] 가설검정 결론 내리기
3.2.18 두 개 이상의 변수 관계를 이해할 때 알아야 할 개념: 공분산, 상관계수, 선형성, 공선성, 다중공선성
3.2.19 차원의 저주란 무엇일까?
3.2.20 저주를 풀어줄 PCA란?
3.2.21 필요한 변수만 선택해야 할 때 어떤 방법이 좋을까?
3.3 100개 지식을 아는 사람 vs. 110개 지식을 아는 사람, 누가 진정한 데이터 사이언티스트일까?
4장 데이터 사이언티스트가 하는 일
4.1 직장인으로서 데이터 사이언티스트
4.1.1 피할 수 없는 ‘업무 정의의 모호성’
4.1.2 업무를 제대로 이해하는 방법
4.1.3 업무의 방향성을 지켜 줄 두 가지의 방법
4.1.4 당신을 돋보이게 할 상황에 따른 커뮤니케이션 방법
4.2 꼭 알아야 할 키워드
4.2.1 모델의 수익화(Web API)
4.2.2 불확실성(Uncertainty) 다루기
4.2.3 모델 해석 능력(Interpretability)
4.2.4 업무 효율성 - 자동화 머신러닝, 파이프라인
5장 포트폴리오로 시작하기
5.1 왜 포트폴리오일까?
5.2 당신을 함정에 빠뜨릴 포트폴리오
5.2.1 누구나 다 아는 데이터
5.2.2 복사 & 붙여넣기 식의 포트폴리오
5.2.3 양 vs. 질: 양을 선택한 포트폴리오
5.3 포트폴리오 예시
5.3.1 주제 찾기 & 문제점 제시
5.3.2 데이터
5.3.3 해결 과정
5.3.4 결과
5.3.5 플랫폼 선택, 문서화
5.3.6 재검토
5.3.7 마치며
에필로그
찾아보기
도서명 : 데이터 사이언티스트 실전 노트
저자/출판사 : 이지영, 비제이퍼블릭
쪽수 : 472쪽
출판일 : 2022-06-29
ISBN : 9791165921521
정가 : 30000
저자 소개
서문
베타 리더 추천사
이 책의 구성
1장 데이터 사이언티스트 이해하기
1.1 데이터 직무 알아보기
1.1.1 데이터 직무 세 가지: 데이터 분석가, 데이터 엔지니어, 데이터 사이언티스트
1.1.2 데이터 직무별 갖춰야 할 필수 능력
1.2 데이터 사이언티스트를 왜 하필 데이터 사이언티스트라고 할까
1.2.1 회사가 데이터 사이언티스트에게 바라는 점
1.2.2 진짜 데이터 사이언티스트가 갖춰야 할 역량
1.3 데이터 사이언티스트를 희망한다면 이것부터 살펴라
1.3.1 관련 전공자와 석·박사를 우대하는 현실
1.3.2 체크리스트로 보는 나는 무엇을 키워야 할까
2장 데이터 사이언티스트에서 “데이터”
2.1 데이터 유형
2.1.1 정형 데이터(Structured Data)
2.1.2 비정형 데이터(Unstructured Data)
2.1.3 반정형 데이터(Semi-structured Data)
2.1.4 내게 필요한 데이터 유형은 무엇일까?
2.2 데이터에서 확인해야 할 사항
2.2.1 4가지 상황에서 살펴본 데이터 크기(Size)
2.2.2 데이터의 값에 따른 종류
2.2.3 결측치(Missing Value)
2.2.4 중복 데이터
2.2.5 식별키(Prime Key, Primary Key)
2.2.6 상황으로 살펴보는 스키마 생성 예시
2.3 데이터 합치기
2.3.1 데이터프레임 결합: pd.merge()
2.3.2 데이터프레임 결합: df_left.join(df_right, ...)
2.3.3 여러 데이터프레임 연결: pd.concat()
2.3.4 데이터프레임, 배열, 리스트, 딕셔너리 연결: .append()
2.3.5 상황으로 살펴보는 데이터 합치기 활용
3장 데이터 사이언티스트에서 “사이언티스트”
3.1 데이터 사이언티스트는 무엇을 하는 사람인가
3.1.1 질문을 통해 문제점 찾기
3.1.2 수학과 통계 얼마나 잘해야 할까
3.2 기본 통계로 질문자 되기
3.2.1 평균인 μ와 , 무엇이 다를까?
3.2.2 수학과 통계는 무엇이 다를까?
3.2.3 확률, 가능도, 최대 가능도 추정, 통계 차이는?
3.2.4 통계 vs. 머신러닝 그리고 모수 vs. 비모수 차이는 무엇일까?
3.2.5 정규분포를 포함한 분포는 결국 OO이다
3.2.6 분포는 무엇으로 결정될까?
3.2.7 중심경향값을 계산하는 대표적인 세 가지는 무엇일까?
3.2.8 중심경향을 제외한 분포 파악에 필요한 통계치는 무엇일까?
3.2.9 적률로 이해하는 분포 특징 4가지
3.2.10 피처 스케일링할 것인가, 말 것인가? 지도학습 사용 목적으로 판단하기
3.2.11 피처 스케일링 방법 중 선택 기준이 있을까?
3.2.12 꼭 분포를 바꿔야 할까? 로그 변환, 파워 변환에서 손실과 이익을 따져 보기
3.2.13 중심극한정리에서 시작하는 추리통계
3.2.14 [가설검정 (1) - 가설 설정] 귀무가설을 ?? =0이라고 하면 안 되는 이유
3.2.15 [가설검정 (2) - 유의수준] 가설을 선택하는 기준 & 선택에 따른 오류
3.2.16 [가설검정 (3) - 검정 통계량] 통계방법 선택하는 방법
3.2.17 [가설검정 (4) - α vs. p-value, 임계치 vs. 검정 통계량] 가설검정 결론 내리기
3.2.18 두 개 이상의 변수 관계를 이해할 때 알아야 할 개념: 공분산, 상관계수, 선형성, 공선성, 다중공선성
3.2.19 차원의 저주란 무엇일까?
3.2.20 저주를 풀어줄 PCA란?
3.2.21 필요한 변수만 선택해야 할 때 어떤 방법이 좋을까?
3.3 100개 지식을 아는 사람 vs. 110개 지식을 아는 사람, 누가 진정한 데이터 사이언티스트일까?
4장 데이터 사이언티스트가 하는 일
4.1 직장인으로서 데이터 사이언티스트
4.1.1 피할 수 없는 ‘업무 정의의 모호성’
4.1.2 업무를 제대로 이해하는 방법
4.1.3 업무의 방향성을 지켜 줄 두 가지의 방법
4.1.4 당신을 돋보이게 할 상황에 따른 커뮤니케이션 방법
4.2 꼭 알아야 할 키워드
4.2.1 모델의 수익화(Web API)
4.2.2 불확실성(Uncertainty) 다루기
4.2.3 모델 해석 능력(Interpretability)
4.2.4 업무 효율성 - 자동화 머신러닝, 파이프라인
5장 포트폴리오로 시작하기
5.1 왜 포트폴리오일까?
5.2 당신을 함정에 빠뜨릴 포트폴리오
5.2.1 누구나 다 아는 데이터
5.2.2 복사 & 붙여넣기 식의 포트폴리오
5.2.3 양 vs. 질: 양을 선택한 포트폴리오
5.3 포트폴리오 예시
5.3.1 주제 찾기 & 문제점 제시
5.3.2 데이터
5.3.3 해결 과정
5.3.4 결과
5.3.5 플랫폼 선택, 문서화
5.3.6 재검토
5.3.7 마치며
에필로그
찾아보기
댓글목록0