통계학

자료 정보

진행 상황: 이 자료는 아직까지 만들어지는 중입니다. 여러분이 빨리 진행될 수 있도록 도와주세요.

과목 정보: 이 자료는 수학 과목의 자료입니다.

자료 형식: 이 자료는 문서형식의 자료입니다.

교육 수준: 이 자료는 대학교 강의 수준의 자료입니다.

통계학(統計學, statistics)은 흔히 주어진 자료에서 합계나 평균과 같이 필요한 정보를 계산하는 등 자료를 수집·정리·요약하는 기술통계학(記述統計學, descriptive statistics)과 표본(자료)에서 얻은 정보를 이용하여 모집단(자료를 뽑은 대상 전체)에 대한 정보를 예측하고 불확실한 사실에 대한 결론을 이끌어 내는 데 필요한 이론과 방법을 제시하는 추론통계학(推論統計學 , inferential statistics)으로 구성되어 있다.

통계학은 표본 그 자체보다는 모집단에 관심을 가지고 일부분으로 전체에 대한 정보를 알아내려고 하는 것이며 이러한 것을 통계적 추론(statistical inference)이라 한다. 부분으로 전체에 대한 정보를 구하다 보니 오차가 나타나며 이러한 오차를 줄이고 또한 오차의 크기를 계산하여 정보 이용자에게 제공하는 것이 통계학의 목적이라고 할 수 있다.

통계학은 응용수학(應用數學, applied mathematics)의 한 분야로써 관찰 및 조사를 통해 얻을 수 있는 불균형적인 데이터로부터 응용수학의 기법을 이용하여 데이터의 성질, 규칙성 또는 불규칙성을 찾아낸다.

통계학은 농업, 생명과학(生命科學, life science), 환경과학(環境科學, environmental science), 의학(醫學, medicine), 보건학(保健學, health science), 사회학(社會學, sociology), 심리학(心理學, psychology), 역사학(歷史學, history as science), 인류학(人類學 , anthropology), 언어학(言語學, linguistics), 스포츠, 관광, 경제, 경영 등 거의 모든 학문 분야 및 실생활에 다양하게 사용되고 있다.

특히 통계학은 데이터를 통해 기술하고 분석하며 추론하는 일과 관련된 수학 분야다. 추론 또는 귀납적 추리는 특수 사실로부터 일반적 주장을 끌어내는 논법을 말한다. 예를 들어 여러분이 어떤 도시에 사는 1000명의 사망 연령을 알고 있다면, 이 특수한 데이터를 통해 그 도시 전체 인구의 기대 수명에 대한 일반적 정보를 추론할 수 있을 것이다.

데이터를 통해 기술하고 분석하며 추론하는 일과 관련된 수학 분야다. 추론 또는 귀납적 추리는 특수 사실로부터 일반적 주장을 끌어내는 논법을 말한다. 예를 들어 여러분이 어떤 도시에 사는 1000명의 사망 연령을 알고 있다면, 이 특수한 데이터를 통해 그 도시 전체 인구의 기대 수명에 대한 일반적 정보를 추론할 수 있을 것이다.

19세기 초, 베이즈의 방법(분석법)은 천문학에서 오차의 이론인 순수 통계학이 첫 번째 꽃을 피우기 위한 토대를 마련했다. 그 시기의 천문학자들은 여러 관측자들의 데이터를 통합함과 동시에 천문학에 영향을 미쳤던 다양한 관측 오차들을 인정함으로써 자신들의 학문에 대하여 광범위하면서도 매우 엄밀한 토대를 마련하는 일에 관심을 가졌다.

사실 망원경으로 별을 관측하는 것은 의외로 주관적이다. 따라서 프랑스의 피에르 시몽 라플라스(Pierre Simon Laplace, 1749~1827)와 독일의 카를 프리드리히 가우스(Carl Friedrich Gauss) 등의 수학자들은 오차 분포에 대한 아이디어를 도입한 영국의 통계학자 토머스 심프슨(Thomas Simpson, 1710~1761)이 말한 “장비와 감각기관의 결함으로 발생하는 오차들을 줄이기 위해” 확률 수학을 적용했다.

19세기에서 20세기로 넘어갈 무렵, 영국의 생물학자 프랜시스 골턴(Francis Galton)과 칼 피어슨(Karl Pearson)은 상관관계(함께 변하는 두 변량을 정량화시키는 단계)와 다중회귀(여러 개의 독립변수와 한 개의 종속변수 간의 관계를 나타내는 방법) 분석 기법들을 결합하여 현대 통계학을 만들었다. 동시에 오로지 가능성에 의해서만 나타나는 결과의 확률을 정하는 방법인 유의성 검정에 관한 아이디어를 보급시키는 데에도 기여했다. 이들 방법은 현대 과학 연구에서 사용되는 통계학의 토대를 이루고 있다.

데이터 처리 과정은 크게 3단계로 나뉜다.

첫 번째는 데이터를 수집하는 단계다.

데이터(data), 사전적 의미로는 ‘입론(立論)의 기초가 되는 자료’ 또는 ‘관찰이나 조사에서 얻은 사실’을 말한다. 기본적인 과학적 작업의 제1단계는 데이터 자료의 수집과 분석이다. 데이터 분석의 어려움에 비해 데이터 수집은 비교적 용이하다고 생각하는 경향이 있는데 그것은 잘못된 것이다. 왜냐하면 적절하고 정확한 데이터를 수집하는 것은 실로 어렵고 세심한 주의를 필요로 하는 중요한 작업의 하나이기 때문이다. 가령 최신의 통계기술을 구사하여 분석을 실행해도 데이터의 타당성이 결여되어 있거나 부정확하다면 유의한 결론을 얻을 수 없다. 이것은 GIGO(Garbage In, Garbage Out) 원칙으로서 알려져 있다. 즉, ‘만일 데이터가 정확하지 않으면 결론도 신뢰할 수 없다’는 것이다.

두 번째는 데이터를 준비하고 정제하는 과정이다.

데이터는 보통 여러 부서에서 받아 취합한다. 받은 파일을 열어보면 데이터의 포맷은 제각각이고, 특성이나 구조가 다른 경우도 많다. 심지어는 오류도 섞여 있다. 주소 데이터를 예를 들자면 어떤 곳은 ‘서울특별시’라고 표기하고 어떤 곳은 ‘서울’ 혹은 ‘서울시’라고 표현한다. 이러한 것을 통일하고 사용할 수 있게 만드는 게 바로 정제 단계다. 사실 정제 단계는 데이터 분석 전체 단계에서 가장 시간과 노력이 많이 들어가는 부분이다. 데이터 규모가 작다면 정제 단계를 한 사람이 맡을 수 있지만 데이터가 아주 많은 상황이라면 개인이 아닌 팀 단위의 지원이 필요하다.

세 번째 단계는 데이터를 분석하는 과정이다.

데이터 분석을 하면서 설득하고자 하는 주제를 만들거나 시각화해 결론을 낼 수 있다. 데이터의 분석에서 R와 파이썬은 필수이다. 최근 데이터 분석을 이야기할 때 빠지지 않고 등장하는 것이 바로 R와 파이썬이다. R와 파이썬은 각각 통계 언어이자 프로그래밍 언어다. 사실 비전공자가 프로그래밍 언어에 바로 도전하는 것이 말처럼 쉽지 않다. 어느 전문가는 “현장에서 실무를 다루시는 분 가운데 R나 파이썬을 자유자재로 이용하는 사람들은 드물다”라며 “R로 넘어가기 전에 엑셀같은 익숙한 도구를 이용해 먼저 데이터 분석을 시작할 것을 권유한다”라고 설명했다. 비교적 학습하는 데 부담이 적은 엑셀이나 구글 애널리틱스를 이용하고, 이러한 도구로 해결하지 못하는 문제가 발생했을 때 R나 파이썬으로 넘어가라는 얘기다.

또다른 과정은 RFM 분석과 데이터 마케팅이다. RFM은 ‘Recency, Frequency, Monetary’의 약자다. 고객이 얼마나 최근에(Recency) 물건을 구입했는지, 얼마나 자주(Frequency) 우리 제품을 구매했는지, 결제한 제품의 총 가격(Monetary)이 얼마인지 데이터를 두고 분석하는 방법이다. 이 전문가는 “RFM은 엄청난 통계학적 지식이 필요없는 분석 방법으로 최대값, 최소값, 비율 정도만 계산할 수 있으면 쉽게 접근할 수 있다”라고 말한다.

고객 200만명에게 제품 카탈로그 문서를 우편물로 전송하자고 치자. 상당수 고객은 해당 우편물을 열어보지도 않고 버린다. 이때 RFM 방식을 이용하면 상황을 개선할 수 있다. 예를 들어 기업은 RFM을 1등급부터 5등급까지 분류해 125개 그룹으로 나눌 수 있다. 기업은 각 그룹의 240명을 추출하고 총 3만명(125그룹×240명)의 고객을 먼저 선택한다. 그렇게 3만명의 고객에게 먼저 우편물을 발송하고, 가장 응답률이 좋은 그룹을 찾는다. 향후 125그룹 중 효과가 좋은 그룹 34개만 추려내고 해당 그룹에 속한 고객 모두에게 우편물을 보내면 이전보다는 훨씬 많은 사람들이 우편물을 열어볼 수 있다.