책소개
“어떻게 읽는가에 따라 숫자는 글자만큼 주관적이다”
선거 결과부터 주가 등락, 기후변화, 코로나19 현황까지
복잡한 차트에서 세상을 빠르고 정확하게 읽어내는 데이터 독해력
- 데이터 시각화 분야 세계적 권위자의 화제작? 출간 즉시 아마존 통계 분야 베스트셀러 1위
- 『벌거벗은 통계학』 찰스 윌런, 『대량살상 수학무기』 캐시 오닐, 『틀리지 않는 법』 조던 엘렌버그 강력 추천
- [워싱턴포스트][이코노미스트][사이언티픽아메리칸]… 세계를 사로잡은 ‘빅 데이터 시대 필독서’
우리는 숫자와 그래프로 가득한 세상에 살고 있다. 음원 차트의 순위로 신곡의 인기도를 가늠하고, 주가 등락 폭을 눈여겨보며 유망주를 찾는다. 회사에서는 각종 매출 지표를 능수능란하게 활용하는 사람들이 경쟁력을 얻는다. 코로나19 통계 그래프를 통해 사회적 거리 두기 단계가 어느 정도로 조정될지 예상하며, 선거철이 되면 화려한 그래픽으로 무장한 개표 방송을 즐겨 보기도 한다. 그런데 만일 이 모든 숫자와 그래프가 보이는 것과 다른 이야기를 한다면 어떨까?
『숫자는 거짓말을 한다』는 객관성과 신뢰도의 상징과 같은 차트가 어떻게 데이터를 왜곡해 우리를 오해와 착각의 늪으로 이끄는지 밝혀낸다. 데이터 시각화 분야의 세계적 권위자인 저자는 차트에 속지 않고 잘 써먹기 위해서는 차트를 읽고 해석하는 능력을 길러야 한다고 말한다. 이 책은 차트의 기본 개념을 차근차근 설명하며 잘못된 차트를 가려내는 5가지 기준을 제시한다. 통계나 그래프에 관한 여느 도서와 달리 이 책은 이론을 나열하지 않는다. 그 대신 선거 판세, 경제 전망, 출산율, 범죄율, 코로나19 현황처럼 우리의 삶과 밀접한 사례들을 가득 담아 차트에 관한 배경지식이 부족한 독자들도 읽기에 부담이 없다. 기업의 실적 보고나 광고에서 쓰이는 3차원 시각 효과가 위험한 이유, 캔자스주가 미국에서 가장 높은 포르노 시청률을 기록한 사연, 태풍 예보도 속 원뿔에 관한 오해 등 흥미와 놀라움을 자아내는 이야기들도 가득하다. 뉴스나 기사, 소셜 미디어에서 흔히 접하는 표와 지도, 막대그래프, 산점도, 거품 차트 등 160여 개의 차트가 수록되어 있어, 데이터에 숨겨진 욕망과 의도, 패턴을 정확히 읽어내는 안목을 기르기에도 안성맞춤이다.
이 책은 출간되자마자 아마존 통계 분야 베스트셀러 1위에 오르며 빅 데이터 시대의 필독서로 자리 잡았다. 찰스 윌런, 캐시 오닐, 조던 엘렌버그 등 세계적인 수학자와 통계학자의 연이은 찬사를 받았고, [워싱턴포스트』, [이코노미스트』, [사이언티픽아메리칸』 등 언론과 눈 밝은 독자들의 뜨거운 호응을 이끌어냈다.
목차
한국어판 서문
들어가며. 숫자는 거짓말하지 않는다는 거짓말
서론. 차트는 어떻게 우리를 눈멀게 하는가
붉게 물든 대선 지도의 비밀
1명의 살인마가 범죄율에 미치는 영향
정확한 데이터만으로는 부족하다
표와 그래프를 해독하는 힘, 도해력
1장. 차트란 무엇인가 : 차트의 요소와 시각적 부호화
세계 최초의 차트
숫자를 어떻게 시각적으로 보여줄 것인가
수직축과 수평축에서 알 수 있는 것들
시각적 부호화의 기본 유형
평행좌표 그래프와 선 연결 산점도
차트를 해석하는 5단계 법칙
2장. 같은 데이터, 다른 그래프 : 척도와 비례
팩트와 프로파간다 사이
극적인 대비가 낳은 극적인 오류
기후변화를 둘러싼 진실 공방
기하급수적 증가와 로그 척도
한 나라의 빈곤 수준을 좌우하는 색깔 척도
3장. 무엇을 측정하고 어떻게 집계했는가 : 데이터 신뢰도
쓰레기가 들어가면 쓰레기가 나온다
퍼센트와 퍼센트포인트의 차이
최악의 총기 사건을 불러온 차트
같은 숫자도 다른 말을 할 수 있다
표본은 집단을 얼마나 대표하는가
미국에서 포르노를 가장 많이 보는 곳
믿을 만한 데이터를 가려내는 법
4장. 편집된 진실에 속지 않으려면 : 데이터 선별과 모집단
“연쇄 이민을 끝낼 때가 됐다”
불법체류자 범죄율의 실체
평균값이 말해주지 않는 것들
할리우드 역대 최고 박스 오피스를 달성한 영화
천연두보다 백신이 더 위험하다고?
출산율이 감소하는 진짜 이유
5장. 신뢰도 95%의 비밀 : 미래 예측과 불확실성
지구온난화 예측 모델
오차는 오류의 동의어가 아니다
“죽음의 원뿔”에 관한 오해
6장. 상관관계는 인과관계가 아니다 : 데이터 패턴 읽기
행복 지수를 좌우하는 것들
가난한 사람들은 부자를 위해 투표하는가
오바마케어와 경제 회복
가짜 인과관계에 유의하라
결론. 좋은 차트는 더 나은 세상을 만든다
나이팅게일의 쐐기 차트
합리화에서 추론으로
가짜 뉴스와의 전쟁을 끝낼 무기
마치며. 차트로 바라본 팬데믹 시대
감사의 말
주석
참고 문헌
더 읽을거리
저자
알베르토 카이로
출판사리뷰
“선거 지도는 어떻게 민심을 왜곡하는가?”
“영점에서 시작한 기후변화 그래프가 잘못된 이유는?”
모든 숫자와 그래프가 의심스러워지기 시작했다!
복잡한 현실을 빠르고 정확하게 간파하는 데이터 독해력 기르기
지난 19대 대선은 우리에게 잊을 수 없는 선거였다. “헌정 사상 최초 대통령 탄핵의 결과”, “2000년대 최고 투표율”, “개표 방송 실시간 시청률 40%”, “장미 대선” 등 여러 수식어가 뒤따랐지만 그중에서도 모두가 기억하는 것은 “문재인의 압승”이었다. 그 중심에는 후보자의 득표율을 기준으로 전국의 시와 도를 파란색 또는 빨간색으로 채운 선거 지도가 있다. 전국의 3분의 2가 파란색으로 물든 이 지도를 더불어민주당과 여러 언론에서는 압도적인 지지의 근거로 제시했다. 그러나 당시 문재인의 득표율은 41%로 과반을 넘지 못했고, 맞수였던 자유한국당 홍준표는 24%, 국민의당 안철수는 21%의 표를 얻었다. 안철수는 득표율이 세 번째로 높았지만 지도에 표시되지도 않았다. 문제의 선거 지도는 ‘누가 이겼는가’를 보여줄 뿐 ‘얼마나 지지받았는가’는 알 수 없다. 일종의 착시 효과가 생겨난 것이다.
선거 결과뿐 아니라 뉴스 기사, 보고서, 경제 전망, 태풍 예보, 코로나19 현황 등 일상의 거의 모든 분야에서 차트가 사용되고 있고 그 중요도가 나날이 높아지고 있다. 그러나 사람들 대부분은 차트를 접했을 때 보이는 그대로 받아들일 뿐 그것을 어떻게 읽고 해석하는지는 모르는 경우가 많다. 그 결과 자기도 모르게 차트의 속임수에 넘어가곤 한다.
데이터 시각화 분야의 세계적 권위자인 알베르토 카이로의 신작 『숫자는 거짓말을 한다』는 일상적으로 접하는 표와 그래프, 지도, 다이어그램 등의 차트가 우리를 어떻게 속이는지 밝힌 책이다. 저자는 모든 데이터는 차트로 어떻게 표현하는가에 따라 왜곡될 수 있다고 말한다. 기후변화에 관한 두 개의 선 그래프가 대표적인 사례다. 1880~2012년 지구 평균기온은 1.4℉ 상승했다. 같은 데이터를 사용했지만 하나(99쪽)는 지구온난화를 부정하는 근거로 쓰이고, 나머지 하나(102쪽)는 지구는 뜨거워지고 있다는 근거로 쓰인다. 둘 중 잘못된 차트를 찾는 단서는 온도를 나타내는 수직축 범주에 있다. 첫 번째 그래프는 수직축을 비현실적으로 넓게 잡은 탓에 기후변화 문제의 본질을 흐리고 있다(평균기온이 0℉ 또는 100℉가 되는 순간 지구는 얼어붙거나 불지옥이 될 것이다). 데이터와 차트를 읽고 해석하는 능력이 중요해지는 대목이다.
차트에 숨겨진 의미와 패턴을 읽는 법을 알려주는 이 책은 출간되자마자 아마존 통계 분야 베스트셀러 1위에 오르며 빅 데이터 시대의 필독서로 자리 잡았다. 찰스 윌런, 캐시 오닐, 조던 엘렌버그 등 세계적인 수학자와 통계학자의 잇따른 찬사와 더불어, 『워싱턴포스트』, 『이코노미스트』, 『사이언티픽아메리칸』 등 언론과 눈 밝은 독자들의 뜨거운 주목을 받았다.
선거 결과에서 경제 지표, 기후변화, 코로나19 현황까지
몇 가지 차트만 읽을 줄 알면 세상이 훤히 보인다!
크림전쟁(1853~56)은 국지전 중에서도 엄청난 사상자를 낸 전쟁으로 유명하다. 병사 5명 중 1명이 목숨을 잃을 정도로 사망률이 높았는데, 상당수가 부상이 아닌 이질이나 장티푸스 같은 질병으로 죽었다. 한 달에 최대 3000명 이상을 기록했던 사상자는 1855년 3월이 되어서야 절반 이하로 줄어들었다. 수많은 목숨을 살린 데에는 플로렌스 나이팅게일의 쐐기 차트가 큰 역할을 했다. 스쿠타리 야전 병원의 환자 치료 내역과 시설 현황 등의 방대한 데이터를 바탕으로 한 그녀의 차트를 보고 나서야 빅토리아 여왕과 영국군 지도부가 마음을 움직여 위생위원회를 출범시킨 것이다.
이렇듯 숫자와 차트는 복잡한 세상을 간명하게 보여주는 창(窓)인 동시에, 상대를 설득하고 깊이 있는 소통을 이끌어내는 가장 효과적인 수단이다. 저자가 차트의 오용 가능성을 지적하면서도 그 쓸모와 가치를 강조하는 이유도 여기에 있다.
이 책은 크게 6장으로 구성된다. 1장에서는 차트를 구성하는 요소를 살펴본다. 데이터를 각각의 속성에 맞게 기호(점, 선, 원, 막대 등)와 시각적 부호(길이, 위치, 면적, 색깔 등)로 어떻게 나타내는지도 설명해준다. 어디선가 한 번쯤 봤을 법한 표와 지도, 원 그래프, 막대그래프를 비롯해, 거품 차트, 평행좌표 그래프, 선 연결 산점도, 트리맵(treemap), 테이블 히트 맵(table heat map) 등 조금은 낯설지만 새로운 차트들까지. 지적이고도 눈이 즐거운 차트의 파노라마가 펼쳐진다.
2장부터 6장에서는 잘못된 차트를 가려내는 5가지 기준을 제시한다. 척도와 비례(2장), 데이터 신뢰도(3장), 데이터 선별과 모집단(4장), 불확실성(5장), 인과관계(6장)다. 기업의 실적 보고나 광고에서 쓰이는 3차원 시각 효과가 위험한 이유, 캔자스주가 미국에서 가장 높은 포르노 시청률을 기록한 사연, 태풍 예보도 속 원뿔에 관한 오해 등, 흥미와 놀라움을 자아내는 차트 이야기들이 가득하다. 그 밖에도 선거 판세, 경제 전망, 출산율, 범죄율, 코로나19 현황처럼 우리의 삶과 밀접한 사회 현안들이 많이 다뤄진다. 본문에는 160여 개의 차트가 수록되어 있어 독자들의 직관적인 이해를 돕는다.
“호시탐탐 속이려드는 숫자와 차트에서 스스로를 지킬 강력한 호신용 책” ?조던 엘렌버그
페이크(Fake)와 팩트(Fact)를 가려내고
똑똑한 판단을 내리기 위한 빅 데이터 시대 필수 교양
지난 8일 라이나생명 사회공헌재단인 라이나전성기재단이 전국 만 49세 이상 500명을 대상으로 진행한 미디어 문해력 설문조사에 따르면, 전체 응답자 중 69%가 가짜 뉴스를 봤다고 답했다. 50대 이상 중장년층 10명 중 7명이 가짜 뉴스에 노출된 셈이다. 방송통신심의위원회가 시정 조치를 내린 코로나19 관련 가짜 뉴스만 196건에 이른다. 왜 그런 얄팍한 수에 넘어가는지 모르겠다고 혀를 차겠지만, 실상은 아무리 허술한 주장도 그럴듯한 통계나 그래프가 근거로 제시되면 짐짓 믿어버리는 경우가 많다. 그 함정에 빠지지 않을 가장 확실한 방법은 차트의 진위를 판별하는 안목을 기르는 것이다.
20여 년간 데이터 시각화를 연구해온 저자는 차트가 오용되는 사례들을 유형별로 정리해 낱낱이 파헤친다. “상대를 알고 나를 알면 100번 싸워도 위태롭지 않다”라는 말이 있듯, 이 책에 담긴 속임수의 원리를 알고 나면 누구든 가짜 뉴스에서 스스로를 지킬 수 있다. 통계나 그래프에 관한 여느 책들과 달리 원론적인 서술에 치우치지 않고, 정치, 경제, 사회, 문화 등 현실에서 두루 활용되는 차트들을 선별한 것 또한 눈길을 끈다. 저자는 “좋은 차트는 우리를 똑똑하게 만들고 진실을 간파하게 해준다”라고 말한다. 정보 과잉의 시대에 매 순간 선택의 기로에 놓인 우리에게 이 책은 데이터와 차트에 숨겨진 사실을 정확하게 읽어내고 세상을 나은 방향으로 바꿀 힘을 부여한다.