책소개
데이터 사이언스는 ‘데이터를 과학적으로 다루는’ 학문 분야로 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다. 또, 데이터를 채굴하듯이 수많은 데이터 가운데 유용한 정보를 추출해 내고 의사결정에 활용하는 데이터 마이닝(Data Mining)과 유사하게 다양한 형태의 데이터로부터 지식과 인사이트를 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야로 이해되기도 한다. 최근 정보통신 기술의 비약적 발전으로 유무선 인터넷을 통해 얻을 수 있는 데이터의 양이 폭발적으로 증가한 데다 컴퓨터/모바일 기기의 고성능화가 진전되어 지금까지 할 수 없던 빅데이터 처리가 가능해져 한층 더 주목받고 있다.
목차
제1장 서론
1.1 데이터 과학 개요
1.1.1 읽기 전에
1.1.2 데이터 과학이란
1.1.3 데이터 과학의 영역과 역할
1.1.4 데이터를 보는 안목을 기른다
1.2 파이썬과 패키지
1.2.1 파이썬(Pyhton)의 도입
1.2.2 이 책에서 이용하는 패키지
1.3 몇 가지 약속
1.3.1 노트북(Notebook)과 스크립트
1.3.2 모듈 이름의 생략어
1.3.3 파일명의 생략
1.3.4 패키지 함수 사용법의 조사 방법
1.4 퀵 스타트
1.4.1 설치
1.4.2 주피터 노트북(Jupyter Notebook)·스크립트의 구현과 실행 방법
1.4.3 프로그램과 데이터를 구하는 방법
1.5 파이썬을 이용한 한글 처리
1.5.1 스크립트에 한글을 기술한다
1.5.2 한글을 포함한 데이터 파일 읽기
1.5.3 matplotlib로 한글을 표시한다
1.6 용어의 차이
1.6.1 설명 변수/목적변수, 입력/출력
1.6.2 표본과 데이터
1.6.3 예측과 추정
1.6.4 클래스 분류
1.6.5 트레이닝 데이터, 테스트 데이터
1.6.6 오버피팅
1.6.7 분석
1.6.8 변수
1.6.9 상관과 공분산
1.7 수학, 수치계산, 물리의 시작
1.7.1 수학의 시작
1.7.2 수치계산의 문제
1.7.3 물리의 시작
제2장 데이터 처리와 가시화
2.1 데이터의 종류
2.2 데이터의 취득
2.3 데이터의 저장
2.3.1 numpy.ndarray
2.3.2 pandas.DataFrame
2.3.3 numpy.ndarray와 pandas.DataFrame의 변환
2.4 그래프 작성
2.4.1 matplotlib.
2.4.2 복수의 그래프
2.4.3 Titnic(타이타닉호)의 pandas 그래프 그리기
2.4.4 Iris(아이리스)의 seaborn 그래프.
2.4.5 Iris 데이터
제3장 확률의 기초
3.1 확률이란
3.2 기본적인 용어의 설명
3.2.1 이산확률 변수
3.2.2 연속확률 변수
3.2.3 확률밀도 함수, 확률질량 함수와 백분위점55
3.2.4 모집단과 표본
3.2.5 평균, 분산, 그 외의 양.
3.2.6 이산형의 기댓값과 평균.
3.3 정규분포
3.3.1 정규분포의 표현
3.3.2 확률 변수의 생성
3.3.3 중심극한정리
3.4 포아송분포
3.4.1 포아송분포의 표현
3.4.2 포아송분포의 예
3,4,3 포아송 도착 모델의 시뮬레이션
3.4.4 역 함수를 이용한 난수 생성.
3.5 확률분포와 패키지 함수
3.5.1 베르누이분포(Bernoulli distribution)
3.5.2 이항분포(binomial distribution)
3.5.3 포아송분포(Poisson distribution)
3.5.4 카이제곱분포(chi-squared distribution)
3.5.5 지수분포(exponential distribution)
3.5.6 분포( distribution)
3.5.7 정규분포(normal distribution)
3.5.8 분포( distribution)
3.5.9 균일분포(uniform distribution)
제4장 통계의 기초
4.1 통계란
4.2 추정.
4.2.1 점추정
4.2.2 구간추정
4.2.3 모평균의 신뢰구간
4.2.4 모비율의 신뢰구간
4.3 가설검정
4.3.1 가설검정이란
4.3.1 단측검정과 양측검정
4.3.3 모평균의 검정
4.3.4 모분산의 검정
4.3.5 두 표본의 평균 차이에 대한 검정
4.3.6 상관, 무상관의 검정
제5장 회귀분석
5.1 회귀분석이란
5.1.1 회귀의 유래
5.1.2 시스템 이론에서 본 회귀분석
5.1.3 statsmodels
5.2 단순회귀분석
5.2.1 단순회귀분석의 의의
5.2.2 단순회귀 모델의 통계적 평가
5.2.3 가계 동향 조사
5.2.4 심슨의 역설
5.2.5 수학적 설명
5.3 다항식회귀분석
5.3.1 다항식 모델
5.3.2 R 데이터 세트 cars
5.4 중회귀분석
5.4.1 검정
5.4.2 다중공선성
5.4.3 전력과 기온의 관계
5.4.4 와인의 품질분석
5.4.5 수학적 설명
5.5 일반화 선형 모델
5.5.1 일반화 선형 모델의 개요
5.5.2 포아송 회귀 모델
5.5.3 z = β0의 예
5.5.4 z = β0 + β0χ1의 예
5.5.5 로지스틱 회귀 모델
5.5.6 수학적 설명
제6장 패턴 인식
6.1 패턴 인식의 개요
6.1.1 패턴 인식이란
6.1.2 클래스 분류의 성능 평가
6.1.3 홀드아웃과 교차검증
6.1.4 이 장에서 다루는 패턴 인식 방법
6.2 서포트 벡터 머신(SVM)
6.2.1 클래스 분류와 마진의 최대화
6.2.2 비선형 분리의 아이디어
6.2.3 선형, 원형 데이터의 하드 마진
6.2.4 소프트웨어 마진과 홀드아웃
6.2.5 교차검증과 그리드 서치
6.2.6 멀티클래스 분류
6.3 SVM의 수학적 설명
6.3.1 마진 최대화
6.3.2 커널 함수의 이용
6.3.3 소프트 마진
6.4 최근접 이웃법(κNN)
6.4.1 알고리즘의 논리
6.4.2 κNN의 기본적 사용법
6.4.3 Iris 데이터
6.4.4 sklearn이 제공하는 거리
6.5 평균법
6.5.1 알고리즘의 논리
6.5.2 make_blobs를 이용한 클러스터링
6.5.3 도매업자의 고객 데이터
6.5.4 수학적 설명
6.6 응집형 계층 클러스터링
6.6.1 알고리즘의 논리
6.6.2 덴드로그램
6.6.3 도야마현의 시읍면별 인구 동태
제7장 심층학습
7.1 심층학습의 개요와 종류
7.1.1 심층학습이란
7.1.2 심층학습의 활용 예
7.1.3 용어의 설명
7.2 Chainer
7.2.1 개요와 설치
7.2.2. 실행과 평가
7.2.3 κNN용 스크립트의 설명
7.3 NN(신경망)
7.3.1 개요와 계산 방법
7.3.2 κNN 스크립트의 변경
7.4 DNN(심층 신경망)
7.4.1 개요와 실행
7.4.2 파일 데이터의 처리 방법
7.5 CNN(합성곱 신경망)
7.5.1 개요와 계산 방법
7.5.2 학습과 검증
7.5.3 트레이닝 데이터의 작성법
7.6 QL(Q학습)
7.6.1 개요와 계산 방법
7.6.2 실행 방법
7.6.3 병따기 게임
7.7 DQN(심층 Q네트워크)
7.7.1 개요
7.7.2 실행 방법
7.7.3 병따기 게임
제8장 시계열 데이터 분석
8.1 동적 시스템
8.1.1 인과성과 동적 시스템
8.1.2 동적 시스템의 선형 모델
8.1.3 1차 시스템의 시간응답
8.1.4 2차 시스템의 시간응답
8.2 이산 시간계
8.2.1 이산화
8.2.2 샘플링 시간의 선정
8.2.3 이산 시간계의 차분형식의 해석
8.2.4 지연 연산자
8.2.5 이산 시간 모델 도입의 문제 설정
8.3 ARMA 모델
8.3.1 ARMA 모델의 표현
8.3.2 가식별성과 PE성의 조건
8.3.3 입력 신호 후보와 항의 문제
8.3.4 ARMA 모델의 안전성과 성질
8.3.5 파라미터 추정
8.4 모델의 평가
8.4.1 모델 차수의 선정과 AIC
8.4.2 모델 차수의 선정과 극·영점 소거법
8.4.3 잔차 계열의 검정
8.5 ARMA 모델을 이용한 예측
8.5.1 예측 방법
8.6 ARIMA 모델
8.6.1 트렌드
8.6.2 ARIMA 모델의 표현
8.6.3 트렌드를 가진 시계열 데이터 분석
8.7 SARIMAX 모델
8.7.1 항공사의 승객 수
8.7.2 그 외의 계절성 데이터
8.8 주가 데이터의 시계열 분석
8.8.1 이동평균
8.8.2 볼린저 밴드
8.8.3 캔들 차트
제9장 스펙트럼 분석
9.1 기본 사항
9.1.1 주파수란 소리를 내는 것
9.1.2 스펙트럼이란
9.2 푸리에 변환
9.2.1 푸리에 변환과 푸리에 역변환
9.2.2 진폭, 에너지, 파워 스펙트럼
9.3 현실의 문제점
9.3.1 샘플링 문제
9.3.2 엘리어싱
9.3.3 유한 장파형의 문제점
9.4 이산 푸리에 변환(DFT)
9.4.1 DFT의 표현
9.4.2 사인파의 DFT 예
9.4.3 제로 패딩
9.5 윈도우 함수
9.5.1 윈도우 함수의 종류
9.5.2 윈도우 함수의 사용 예
9.5.3 수학적 표현
9.6 랜덤 신호의 파워 스펙트럼 밀도
9.6.1 파워 스펙트럼 밀도의 표현
9.9.2 PSD는 확률 변수
제10장 디지털 필터
10.1 필터의 개요
10.1.1 필터란
10.1.2 필터 특성
10.1.3 데시벨 [dB]
10.2 아날로그 필터의 설계
10.2.1 버터워스 필터
10.2.2 체비셰프 필터
10.3 디지털 필터의 설계
10.3.1 디지털 필터의 도입
10.3.2 디지털 필터의 구조
10.3.3 FIR 필터
10.3.4 IIR 필터
10.3.5 정규화 각주파수
10.4 FIR 필터의 설계
10.4.1 윈도우 함수를 이용한 설계 방법
10.4.2 설계 예
10.5 IIR 필터의 설계
10.5.1 아날로그 필터에 기초한 방법
10.5.2 설계 예
제11장 이미지 처리
11.1 이미지 처리의 개요
11.1.1 색 좌표계
11.1.2 수치로서의 표현
11.1.3 표본화와 양자화
11.1.4 이미지 데이터 입수하기
11.1.5 OpenCV의 문서
11.1.6 실행 방법
11.2 이미지 처리의 예
11.2.1 2진화
11.2.2 에지 검출
11.2.3 주파수 필터링
11.2.4 특징점 추출
11.3 기타
11.3.1 카메라에서 이미지 불러오기
11.3.2 광학 흐름
11.3.3 얼굴 인식
참고문헌
맺음말
색인
저자
하시모토 히로시
출판사리뷰
파이썬으로 배우는
통계 분석·패턴 인식·딥러닝·신호 처리·시계열 데이터 분석!
데이터 사이언스 교과서
데이터 사이언스는 ‘데이터를 과학적으로 다루는’ 학문 분야로 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다. 또, 데이터를 채굴하듯이 수많은 데이터 가운데 유용한 정보를 추출해 내고 의사결정에 활용하는 데이터 마이닝(Data Mining)과 유사하게 다양한 형태의 데이터로부터 지식과 인사이트를 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야로 이해되기도 한다. 최근 정보통신 기술의 비약적 발전으로 유무선 인터넷을 통해 얻을 수 있는 데이터의 양이 폭발적으로 증가한 데다 컴퓨터/모바일 기기의 고성능화가 진전되어 지금까지 할 수 없던 빅데이터 처리가 가능해져 한층 더 주목받고 있다.
이 책을 통해 독자는 데이터 사이언스의 의미부터 금융 데이터 분석, 동적 시스템 분석 등의 공학 응용까지를 파이썬으로 실제로 분석하면서 학습할 수 있다. 특히 데이터 처리와 확률·통계 기초와 같은 기본적인 부분부터 회귀분석, 패턴 인식, 딥러닝 등 통계·머신러닝 기법, 금융 데이터 등 시시각각 변하는 시계열 데이터 분석, 센서 데이터 등에 포함된 노이즈나 외란을 판별하는 스펙트럼 분석, 노이즈나 외란을 제거하기 위한 디지털 필터, 이미지 데이터의 분석으로 이미지 처리를 설명함으로써 데이터 과학의 개략적 내용을 한눈에 파악할 수 있다. 무엇보다 파이썬을 예제로 한 설명으로 이론과 실습을 겸비하여 데이터 과학을 학습하여 제 분야에 응용하고 싶은 독자에게 안성맞춤이다.
대상 독자
- 자신의 전문 분야, 공학·경제·인문사회계에서 데이터 과학을 응용하고 싶은 분
- 센서 데이터 등의 시계열 데이터 분석을 수행하고 싶은 분
- 파이썬으로 동적 시스템 분석 및 신호 처리·분석을 해보고 싶은 분
★ 예제 코드 다운로드! - ㈜성안당 홈페이지(www.cyber.co.kr)=회원가입-로그인 상태에서 [자료실]-[자료실 바로가기]-‘데이터사이언스’ [검색]-(도서 제목명 클릭)-[자료 다운로드 바로가기]