책소개
“통계학은 빅데이터 시대의 새로운 필수 교양이다”
집값 예측부터 질병 추적, 살인 패턴 분석까지
넘치는 정보 속 세상의 모든 답은 통계에 숨어 있다!
-햄, 소시지가 암 발병률을 18% 높인다고 하던데, 그럼 다섯 중 하나꼴로 암에 걸린단 말인가?
-사고 다발 지역에 과속 단속 카메라를 설치했기 ‘때문에’ 교통사고가 줄어든 걸까?
-통상적인 기대 사망자 수보다 몇 명이나 더 죽어야 연쇄살인임을 알 수 있을까?
통계는 개별 자료들을 분석해 전체적인 상태를 유추하고 이를 구체적인 숫자로 나타낸 것이다. 통계는 하나씩 따로 봤을 때는 복잡하고 혼란스러워 보이던 것들에서 어떤 흐름이나 패턴을 보여주기 때문에, 주식 차트부터 인구 분포까지 통계는 다방면으로 사용된다. 특히 개인의 취향과 관심사마저 수량화되는 빅데이터 시대에 통계적 분석과 사고 능력은 읽고 쓰는 능력만큼이나 중요하다.
『숫자에 약한 사람들을 위한 통계학 수업』은 단순히 평균이나 표준편차를 계산하는 것이 아닌, 데이터에서 의미 있는 패턴과 관계를 연구하는 통계학을 선보인다. 또한 실세계의 데이터와 예제를 활용해 통계학이 일상의 소소한 호기심부터 사회·경제·과학·의학 분야의 다양한 문제들을 해결하는 데 유용한 도구임을 보여준다. 이 책을 통해 독자들은 부분에서 전체를 이해하고, 숫자 너머 세상의 흐름을 올바르게 읽어내는 통계적 사고의 힘을 얻을 수 있다.
목차
들어가며
1장 비율로 표시하기: 범주형데이터와 백분율
2장 숫자들을 요약하고 전달하기: 데이터의 위치, 퍼짐, 관계
3장 부분에서 전체를 추론하기: 모집단과 측정
4장 무엇이 무엇의 원인인가?: 인과관계
5장 관계를 모형화하기: 회귀 모형
6장 분석하기와 예측하기: 알고리즘
7장 추정을 얼마나 확신할 수 있나?: 표본의 크기와 불확실성 구간
8장 불확실성과 변동성의 언어: 확률 법칙과 이론
9장 확률과 통계가 만났을 때: 확률 모형에 기초한 통계적 추론
10장 질문에 대답하기와 발견을 주장하기: 가설 검정과 통계적 유의성
11장 경험으로부터 배우기: 베이즈 방법
12장 일들은 어떻게 잘못되는가?: 오류와 속임수
13장 더 나은 통계학을 위하여: 신뢰성과 윤리 문제
14장 결론: 통계학을 잘하는 10가지 방법
감사의 말
용어집
미주
찾아보기
저자
데이비드 스피겔할터 지음, 권혜승 외 옮김
출판사리뷰
넘쳐나는 정보 속 거짓과 우연을 피해
현명한 선택을 이끄는 통계적 사고의 힘
2015년, WHO에서 햄, 소시지 같은 가공육이 담배와 석면이 속한 ‘1군 발암물질’에 해당하며, 매일 50그램의 가공육을 먹으면 장암 발병률이 18% 높아질 수 있다고 밝혀 전 세계를 충격에 빠뜨렸다. 그렇다면 거의 다섯 중 하나가 암에 걸린단 말인가?
반응은 즉각적이었다. 당장 마트에서 햄이나 소시지 매출이 눈에 띄게 줄었다. 학교 급식 식단에서 햄이나 소시지 등의 가공육을 아예 퇴출시켜야 한다는 목소리가 높아졌다. 햄버거 등의 외식업계는 급감하는 소비에 타격을 입었다.
알고 보니 이 18%라는 무시무시한 숫자가 진정 의미하는 바는 상대적인 증가율이었다. 영국의 경우 장암에 걸리는 사람은 통상 100명 중 6명꼴이다. 여기에 18%라는 상대적인 증가율을 적용하면 이 6명은 7명이 된다. 즉 실제 암에 걸리는 사람은 고작 1명 증가한다.
『숫자에 약한 사람들을 위한 통계학 수업』은 일상에서 만나는 숫자들을 합리적으로 의심하고 참과 거짓, 우연과 필연을 구별해내는 법을 알려준다. 저자 데이비드 스피겔할터(David Spiegelhalter)는 케임브리지대학교 통계학 교수와 왕립통계학회 회장을 역임한 세계적인 통계학자다. 그는 복잡한 수학을 사용하지 않으면서도 상대위험도와 절대위험도, 상관관계와 인과관계, 대중의 지혜, 평균으로의 회귀 같은 통계학의 핵심 개념을 놀랍도록 쉽고 명쾌하게 설명한다.
우리는 이미 거의 모든 것을 통계로 말하고 생각한다. 이 책을 통해 독자들은 빅데이터 시대에 필요한 실용적이고 생산적인 통계적 역량을 쌓을 수 있다.
통계는 우리가 당면한 문제에 관해 명확성과 통찰력을 가져다주지만, 어떤 의견을 조장하거나 단순히 관심을 끌기 위해 오용되기도 한다. 따라서 어떤 통계적 주장이 믿을 만한지 판단하는 능력이 현대 사회에서 점점 중요해지고 있다. 이 책이 일상에서 맞닥뜨리는 숫자들에 관해 질문을 던질 수 있는 힘을 주길 바란다. (22쪽)
수포자도 얼마든지 읽을 수 있다!
쉽게 배우고 제대로 써먹는 통계학 공부
최근에 통계가 한국 사회를 뜨겁게 달구고 있다. 정부에서 발표한 고용, 소득, 부동산 관련 경제 지수를 두고 그 근거를 둘러싼 논쟁이 끊이지 않고 있다. 또 이번 장마에 기상 예측이 크게 빗나가면서 비판 여론이 거세지자 기상청이 해명에 진땀을 빼고 있다.
사람들이 통계에 이토록 예민한 이유는 그만큼 일상의 의사결정에 통계적 근거를 광범위하게 활용하기 때문이다. 우리는 일기예보를 보고 우산을 챙길지 말지 결정한다. 어떤 식당에 가고 어떤 영화를 볼지를 결정할 때는 포털이 제공하는 사용자 평점을 참고한다. 그 밖에 여론조사 결과는 투표에, 경제 지수는 투자 등의 가계 운용에 영향을 미친다.
이런 숫자들을 해석하고 통계적 결론들을 비판적으로 분석하는 능력을 데이터 문해력(data literacy)이라고 한다. 특히 빅데이터 시대에 데이터가 커지고 복잡해짐에 따라 어떤 증거가 실제로 얼마나 가치 있는지 판단하는 것이 무엇보다 중요해졌다.
저자는 데이터 문해력을 키우기 위해서는 수학 문제를 풀기 위한 통계학이 아니라, 실세계의 문제를 해결하기 위한 통계학을 배워야 한다고 주장한다. 이 책은 48가지의 흥미로운 질문들을 통해 데이터로부터 진정한 세상을 읽어내는 지적 여정으로 독자들을 이끈다. 그중 몇 가지를 요약해 소개하면 다음과 같다.
√ 통상적인 사망자 수보다 몇 명이나 더 죽어야 연쇄살인을 알 수 있을까?
해럴드 시프먼(Harold Shipman)은 영국에서 가장 많은 사람을 살해한 범죄자다. 가정의인 그는 1975~1998년에 자신의 환자 중 적어도 215명에게 과다한 양의 진정제를 주사해 죽음에 이르게 했다. 유가족들은 그가 그렇게 오랫동안 아무 의심도 받지 않고 범죄를 저질렀음에 경악했다. 조사팀은 통계적 모니터링이 이루어졌다면 1984년에 유의미한 과잉 사망의 증거를 발견했을 것이고 만약 그때 시프먼을 신고했더라면 약 175명을 구할 수 있었을 거라고 결론 내렸다.
√ 기도는 환자의 회복에 도움이 될까?
연구자들은 심장 수술을 받은 1800명의 환자들을 세 그룹으로 나누었다. 첫 번째 그룹은 기도를 받았으나 그 사실을 몰랐다. 두 번째 그룹은 기도를 받지 않았고 마찬가지로 그 사실을 몰랐다. 세 번째 그룹은 기도를 받았고 그 사실을 알았다. 실험 결과 기도를 받은 그룹과 그렇지 않은 그룹 간 의미 있는 차이는 없었다. 하지만 세 번째 그룹에서는 합병증에 시달리는 환자가 약간 증가했다. 한 연구자는 이렇게 말했다. “환자들은 기도를 받아야 할 만큼 내가 엄청 아픈가, 하고 의아해하면서 불안해했던 건지 모른다.”
√ 교통사고가 줄어든 것은 정말로 과속 단속 카메라 덕분일까?
과속 단속 카메라가 설치된 이후에 사고율이 내려가면, 사람들은 카메라 덕분이라고 생각한다. 하지만 사고율은 어쨌거나 내려가지 않았을까? 연구자들은 과속 단속 카메라의 진정한 설치 효과를 알아내기 위해 카메라를 무작위로 배치했다. 그 결과, 카메라 설치 효과 중 약 3분의 2는 평균으로의 회귀 때문으로 추정되었다. 다시 말해, 연이은 행운이나 불운은 영원히 계속되지 않으며, 결국 사태는 다시 잦아들기 마련이다.
√ 정확도가 90%인 암 검사 결과 양성인 사람이 실제 암에 걸렸을 확률은?
검사를 받은 사람이 1000명이고 그중 1%인 10명이 실제 암에 걸렸다고 가정하자. 그 10명 중 9명(90%)은 양성 판정을 받는다. 한편, 암이 없는 990명 중 99명(10%)이 잘못된 양성 판정을 받는다. 따라서 양성 판정자가 실제 암에 걸렸을 확률은 9/108, 약 8%에 불과하다. 조건부확률에 관한 이 연습문제는 직관에 반한다. 검사의 정확도가 90%임에도, 양성 판정자 대다수가 사실 암에 걸리지 않은 것이다. 우리는 암에 걸렸을 때 검사 결과가 양성일 확률과 양성 결과가 나왔을 때 암에 걸렸을 확률을 구별해야 한다.
우리 삶을 지배하는 알고리즘은 어떻게 만들어질까?
데이터과학과 인공지능을 위한 교양으로서의 통계학
프랜시스 서머턴은 영국 사람으로 아내와 어린 딸을 영국에 남겨둔 채 미국에 가서 돈을 벌어올 요량으로 8파운드 1실링짜리 타이태닉호 삼등석 티켓을 샀다. 한편, 칼 달은 45세 노르웨이 가구공으로 서머턴과 같은 운임을 내고 홀로 배에 올랐다. 그들은 비슷하게 가난했고 또 절박했지만 1912년 4월 14일 밤에 두 사람의 운명이 갈렸다. 서머턴은 차가운 바다 밑으로 가라앉았지만 달은 15번 구명보트에 가까스로 기어올랐다.
서머턴은 단지 운이 나빴던 걸까? 아니면 실제로 생존 가능성이 희박했던 걸까? 그저 직감에 따라 그가 남자였고 삼등석에 탔다는 이유로 생존할 수 없었을 거라 단정할 수도 있다. 하지만 호칭, 성별, 나이, 티켓 가격 등의 데이터를 활용해 타이태닉 승객의 생존 여부에 대한 다양한 예측 알고리즘을 설계하면 우리는 보다 구체적인 생존율을 구할 수 있다.
오늘날 우리는 실시간 교통 정보를 수집해 최적 경로를 안내하고 평소 온라인 쇼핑 내역을 바탕으로 맞춤 광고를 제공하는 등의 다양한 알고리즘에 둘러싸여 있다. 뿐만 아니라 앞으로 빅데이터를 활용한 데이터과학이 발전할수록 의료, 금융, 치안 같은 분야에서 알고리즘에 대한 의존도는 더욱 높아질 것이다.
따라서 전문가가 아니더라도 알고리즘의 구조와 파악하고 그 한계를 명확하게 이해할 필요가 있다. 이 책은 알고리즘의 근간이 되는 회귀, 과대적합, 교차검증, 베이즈 추론 등의 통계학 이론들을 알기 쉽게 설명해준다. 처음 통계학을 공부하는 초심자뿐 아니라 데이터과학과 인공지능을 위한 교양으로서의 통계학을 배우려는 사람에게 이 책은 좋은 길잡이가 되어줄 것이다.
통계학의 고수처럼 생각하는 10가지 방법
마지막으로 현명한 통계학의 고수가 되고자 하는 이들에게 저자가 제안하는 10가지 방법을 소개한다.
1. 통계적 방법은 데이터가 과학적 질문에 답하게 해야 한다. 특정 기법에 초점을 두기보다 왜 이것을 하는지를 질문하자.
2. 신호는 항상 잡음과 함께 나타난다. 그 두 가지를 구분하려는 노력이 통계학을 흥미롭게 만든다. 변동성은 피할 수 없고, 확률 모형은 추상적 개념으로 유용하다.
3. 미리, 정말로 미리 계획하라. 확증적 연구에선 연구자의 자유도를 피하기 위해 사전 설명서를 사용하자.
4. 데이터의 질에 신경 써라. 모든 것은 데이터에 달려 있다.
5. 통계 분석은 계산 그 이상이다. 이유를 알지 못한 채, 그저 데이터를 공식에 집어넣거나 소프트웨어를 실행하는 건 바람직하지 않다.
6. 단순함을 유지하라. 중요한 전달은 가능한 기초적이어야 한다. 괜히 복잡한 모형화로 기량을 뽐내지 말자.
7. 변동성 평가를 제공하라. 오차범위가 일반적으로 주장되는 것보다 크다는 경고도 함께.
8. 가정을 점검하라. 그리고 이것이 언제 가능하지 않았는지 밝히자.
9. 가능하다면, 재현하라! 또는 다른 사람들이 그렇게 하도록 권장하자.
10. 분석이 재생산될 수 있게 만들어라. 다른 사람들이 당신의 데이터와 코드를 얻을 수 있어야 한다.
통계학은 우리 삶 전반에서 중요한 역할을 하고 있으며, 오늘날 더 많은 데이터를 이용할 수 있게 됨에 따라 꾸준히 변화하고 있다. 그것은 사회에 영향을 미칠 뿐만 아니라 개인에게도 영향을 미친다. 이 책을 준비하면서 통계학이 내 삶을 얼마나 풍요롭게 만들었는지 깨닫게 된 것처럼 당신도 그러길 바란다. 당장 지금이 아니더라도 언젠가 미래에.(418쪽)
“이 책에 너무 충격을 받았다. 석박사 과정에서 배워온 통계보다 이 책에서 더 제대로 배운 것 같다.” _블로거 리뷰
모든 정치인, 언론인, 의료진 등 모든 사람의 필독서 _《파퓰러 사이언스》
데이터를 통해 세상을 더 잘 이해하는 방법을 명확하게 알려준다. _《네이처》
가짜 뉴스와 조잡한 사고에 대한 훌륭한 교정 장치 _《커커스 리뷰》