북스토어 > 국내분야별도서 > 통계학

파이썬을 활용한 탐색적 데이터 분석 Python EDA
Detail View

X



관련상품
1 개요 Introduction 1
1.1 4R’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 EDA의 중요 방법 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 줄기-잎 그림 Stem-and-Leaf Plot 11
2.1 Python의 활용 Using Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 문자 값 요약 Letter Value Summaries 31
3.1 문자 값의 응용 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 정규 분포와 문자값 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3 Python의 활용 Using Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 박스 그림과 그 응용 Box Plots and Their Applications 51
4.1 Python의 활용 Using Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 데이터 재표현 Re-expression 73
5.1 대칭성의 진단과 교정 Assessment and Transformation for Distributional Symmetry . . . . . . 77
5.1.1 중앙(mid) 요약 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.1.2 대칭도 Symmetry Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.1.3 맞춤 변환 Matched Transformations . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.1.4 Python의 활용 Using Python . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2 산포 안정화의 진단과 교정 Diagnosis and Stabilization of Variances . . . . . . . . . . . 103
5.2.1 Python의 활용 Using Python . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.3 선형성 진단과 교정 Linearity Diagnostics and Transformation . . . . . . . . . . . . . . . 113
5.3.1 Python의 활용 Using Python . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.4 데이터 재표현의 효과 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
v
vi 차례
6 중앙값 정제 Median Polish 129
6.1 Python 활용 Using Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
7 평활화와 로컬 회귀 Smoothing and Local Regression 151
7.1 중앙값 평활기 Median Smoothers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
7.1.1 분리, 재평활 그리고 해닝 Spliting, Rerough and Hanning . . . . . . . . . . . . . 157
7.1.2 Python의 활용 Using Python . . . . . . . . . . . . . . . . . . . . . . . . . . 162
7.2 로컬 회귀 Local Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
7.2.1 Python의 활용 Using Python . . . . . . . . . . . . . . . . . . . . . . . . . . 177
8 시각화 Visualization 185
8.1 데이터 사전 정리 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
8.2 Python의 시각화 라이브러리 Visualization libraries in Python . . . . . . . . . . . . 195
8.2.1 맷플롯립 Matplotlib . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
8.2.2 시본 Seaborn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
8.3 데이터 분석 시각화 도구 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
8.3.1 선 그림과 요약점 그림 lineplot and pointplot . . . . . . . . . . . . . . . . . . 217
8.3.2 빈도 막대 그림 countplot과 막대 그림 barplot . . . . . . . . . . . . . . . . . . 222
8.3.3 원 그림 pie chart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
8.3.4 히스토그램 histogram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
8.3.5 산점도 scatterplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
8.3.6 쌍별 산점도와 결합 분포도 pairplot and jointplot . . . . . . . . . . . . . . . . 252
8.3.7 히트맵 heatmap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
8.4 [참고] 시각화를 위한 고급 설정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
참고 문헌 269
최근 우리는 새로운 변화를 맞이하고 있습니다. 디지털 전환(Digital Transformation;DX)
이 산업과 사회 전반에 걸쳐 변화를 이끌고 있다면, 이제는 AI Transformation이 그 속도와
영향력에서 전례 없는 변화를 주도하고 있습니다.
데이터 과학(Data Science)은 방대한 데이터를 처리하고 패턴을 탐지하며 이를 다양한 분야
에 응용하는 학문이며, 이의 기본 역량은 데이터 리터러시(Data Literacy)와 통계학(Statistics)
입니다. 여기에 AI 기술과 알고리즘적 사고가 결합될 때, 변화의 시대가 요구하는 가장
중요한 역량이 될 것입니다.
탐색적 데이터 분석(Exploratory Data Analysis; EDA)은 데이터의 구조와 특성, 패턴을
탐색하는 과정입니다. 이는 데이터 리터러시의 기초적인 구현이며 데이터 과학의 핵심 단계이기도
합니다. 따라서 EDA는 변화의 시대에 능동적으로 문제를 해결할 수 있는 필수 역량이라고 할 수
있습니다.
이 책은 EDA의 핵심 개념인 4R’s - resistance, residual-based, re-expression, revelation
- 에 기반하여 정리하였고, 이를 여덟 가지 주제로 분류하여 통계적 이론과 실습을 통해
개념을 이해하고 실무에 쉽게 응용할 수 있도록 하였습니다. 실습을 구성하면서 pandas, matplotlib,
seaborn 등 널리 활용되는 Python 라이브러리를 사용하였고, 라이브러리에서 직접
제공되지 않는 기능은 사용자 정의 함수로 구현하여 효율적인 프로그래밍을 실행 할 수 있도록
하였습니다. 또한 설명된 내용의 모든 code와 output을 순차적으로 제시하여 쉽게 따라할 수
있도록 하였습니다.
수업에 사용한다면, 통계학과 2학년 또는 3학년 수준의 한 학기 강의 교재로 사용하거나 데이터
분석 과목의 보조 교재로 적합하다고 생각합니다. 또한 현업 데이터 분석가의 역량 강화를 위한
세미나 교재로 사용한다면, 각 단원을 별도로 진행하되 실무적으로 유용한 시각화 장을 사례와
함께 다룬다면, 약 8–10회 정도의 세미나가 적절하지 않을까 생각합니다.
끝으로, 이 책에서 제공하는 예제 코드는 반드시 직접 입력해 보기를 권합니다. 스스로 타이핑
해 보지 않은 코드는 학습 효과가 떨어지고, 실제 활용 능력으로 연결되기 어렵기 때문입니다.
매번 느끼는 것이지만, 책을 적는다는 것은 긴 시간 동안의 극심한 노동을 요구하는 작업입니
다. 예전의 경험에 비추어 보았을 때, 이러한 노력 끝에 출간된 책이라 하더라도 여전히 부족한
점과 뜻하지 않은 실수가 존재할 수 있습니다. 이는 앞으로 꾸준히 보완해 갈 것임을 약속드립니
다. 아울러 파이썬 함수 작성과 최종본 검토를 위해 바쁜 시간을 내어 주신 LG 전자(주) 박현진
책임, 흔쾌히 출판을 허락해 주신 교우사 오판근 사장님 그리고 출판 과정에 함께해 주신 모든
관계자분들께 깊이 감사드립니다.
2025년 6월
저자 고승곤
고승곤
현) 가천대학교 응용통계학과 교수
미) lowa State University,통계학 박사
반품/교환 안내
상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다.(업체 사정에 따라 달라질 수 있습니다.
반품/교환 방법 |
홈 > 고객센터 > FAQ "반품/교환/환불" 안내 참고 또는 전화문의 |
반품/교환 가능기간 |
반품가능기간은 배송을 받으시고 7일안에 해주셔야 가능하며, 반품 도서 상태 확인 후 주문건에 대한 취소 및 환불처리가 진행됩니다. |
반품/교환 비용 | 변심 혹은 구매착오의 경우에만 반송료 고객 부담 (별도 지정 택배사 없음) |
반품/교환 불가사유 |
▪ 소비자의 책임 사유로 상품 등이 손실 또는 훼손된 경우 ▪ 소비자의 사용, 도서의 랩핑(포장) 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 (상품 포장을 개봉했을 경우 반품/교환이 되지 않습니다.)
|
A/S 안내 | ▪ 상품의 불량에 의한 반품, 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자 분쟁해결기준 (공정거래위원회고시)에 준하여 처리됨 ▪ 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함 |
구매 후기more +

수화통역의 기초
이벤트more +

CUSTOMER SERVICE CENTER
고객센터
02-925-2861
상담시간 : Am 10 : 00 ~ Pm 16 : 00
(토, 일, 공휴일 휴무)
점심시간 : Pm 12 : 00 ~ Pm 13 : 00



