아, 일상 퀘스트를 진행 중입니다 또는 강화학습 이론&실습 > NEW도서

본문 바로가기

NEW도서

아, 일상 퀘스트를 진행 중입니다 또는 강화학습 이론&실습

최고관리자
2024-12-19 07:55 86 0

본문




아, 일상 퀘스트를 진행 중입니다
9791169103435.jpg


도서명 : 아, 일상 퀘스트를 진행 중입니다
저자/출판사 : 노승희, 미다스북스
쪽수 : 272쪽
출판일 : 2023-10-06
ISBN : 9791169103435
정가 : 17000

프롤로그 - 제목 하나로 일상은 특별해진다

1) 입문 퀘스트 : 일상 경험치를 획득하다
〈아니, 인생까진 모르겠고 우선 해볼게요〉
나만의 보물을 쌓아가는 법 / 마음먹기에 달렸다 / 때론 앞서나갈 줄도 알아야 한다 / 같은 목표를 가진 사람들 / 행복하다면 그걸로 됐다 / 마음에도 지지 않는 꽃물이 든다 / 함께이기에 가능한 일 / 비워내기가 필요한 이유 / 거울 속 나와 친해지기 / 세상에 절대라는 건 없다

2) 성장 퀘스트 : 생각 전환 스킬을 조합하다
〈아휴, 겪어보니 그래도 조금은 알 거 같아요〉
인생은 원하는 대로 흘러가지 않는다 / 고작 술에 무너지지 말자 / 이별을 준비하는 최선의 방법 / 미래를 그려나가다 / 지나고서야 보이는 것들 / 충동적인 마음과 싸우다 / 책임의 무게를 깨닫다 / 마지막 인사는 아프다 / 더는 후회하지 않기로 했다 / 독립적인 인간이고 싶은 마음

3) 메인 퀘스트 : 회복탄력성을 강화하다
〈역시, 세상에 쉬운 건 없지만 잘될 거예요〉
있을 때 잘 하라는 말 / 그리고 마침내 유리벽이 깨졌다 / 욕심을 멈추면 평온이 온다 / 단단하면 부러지는 법 / 안부를 묻는 사람이 되다 / 인생이 끝난 게 아니다 / 여전히 눈물은 흐르지만 / 단 한 사람이면 된다 / 오롯이 혼자만 간직하는 것 / 이제는 홀로서기를 시작할 때

4) 돌발 퀘스트 : 마음 균형 카드를 사용하다
〈일단, 다 사정이 있을 거라고 생각할게요〉
소리는 벽을 타고 흐른다 / 일상에 긴장을 불어넣다 / 얻어 배운 유용한 대처법 / 진짜 어른엔 나이가 없다 / 내뱉은 말에 책임 다하기 / 그래서 로망이라 부른다 / 마침내 진짜 웃음을 보이다 / 오지랖은 현대사회 필수품 / 누구든 최고라 일컫는 말 / 외로움을 글로 쓰면 얻게 되는 것

에필로그 - 내가 나에게 ‘잘하고 있다’ 응원을 달아주는 일




강화학습 이론&실습
9791165922450.jpg


도서명 : 강화학습 이론&실습
저자/출판사 : 황현석, 비제이퍼블릭
쪽수 : 392쪽
출판일 : 2023-10-04
ISBN : 9791165922450
정가 : 30000

프롤로그
1. 환경 설정

1.1 윈도우 버전

1.2 리눅스 버전

2. 강화 학습을 위한 사전 지식

2.1 머신 러닝과 강화 학습
2.1.1 머신 러닝
2.1.2 강화 학습

2.2 기초 수학
2.2.1 기초 선형 대수
2.2.2 기초 미분과 적분
2.2.3 기초 확률 통계

2.3 최적화
2.3.1 뉴턴-랩슨법(Newton-Raphson method)
2.3.2 경사 하강법(Gradient descent method)

2.4 목적 함수
2.4.1 최소 제곱
2.4.2 확률 엔트로피와 쿨백-라이블러 발산

2.5 인공 신경망
2.5.1 신호 전·후 처리
2.5.2 순방향 전파
2.5.3 역방향 전파

2.6 초간단 파이토치 튜토리얼
2.6.1 MNIST
2.6.2 회귀 분석

2.7 매개 변수 탐색법
2.7.1 격자 탐색법(Grid search)
2.7.2 베이지안 탐색법(Bayesian optimization)

3. 마르코프 의사 결정과 동적 계획법 풀이 전략

3.1 마르코프 의사 결정

3.2 동적 계획법

3.3 [실습] 잭의 렌터카 업체 운영 전략 - 동적 계획법을 이용한 마르코프 의사 결정

4. 밸만 방정식부터 강화 학습까지

4.1 몬테-카를로 추정법

4.2 시간차 학습
4.2.1 TD(0)
4.2.2 TD(λ)

4.3 Monte-Carlo vs Temporal Difference

4.4 에이전트 학습
4.4.1 SARSA
4.4.2 Q-learning
4.4.3 실습

5. Q-함수는 신경망에 맡긴다 - DQN

5.1 DQN 208
5.1.1 이론 209
5.1.2 실습 219
5.2 파생 알고리즘 256
5.2.1 DDQN 256
5.2.2 PER 260

6. 즉각적인 학습이 필요할 때 - Policy gradient

6.1 Actor-Critic
6.1.1 이론
6.1.2 실습

6.2 파생 알고리즘
6.2.1 Asynchronous Advantage Actor-Critic
6.2.2 LSTM-Based Advantage Actor-Critic
6.2.3 [고급] Trust Region Policy Optimization
6.2.4 [고급] Proximal Policy Optimization

7. 탐험의 전략 - Model based learning

7.1 사전 지식 - 밴딧 모델

7.2 이론 - Monte-Carlo Tree Search

7.3 실습
7.3.1 CartPole
7.3.2 Tic-Tac-Toe

찾아보기

댓글목록0

등록된 댓글이 없습니다.
게시판 전체검색