포털:고등학교/기술·가정/인공지능 기초(2015 개정)

인공지능의 이해

인공지능과 사회

인공지능과 에이전트

인공지능의 원리와 활동

인식

탐색과 추론

학습

데이터와 기계학습

데이터의 이해와 처리

데이터의 이해

기계학습에서 데이터는 인간의 경험 같은 역할을 한다. 기계학습 모델은 데이터를 이용해 학습하며, 학습된 모델은 새로운 데이터에 대해 예측, 분류, 군집 등의 작업을 처리한다. 기계학습에서 데이터로 충분히 학습하면 모델의 오류가 줄고 성능이 향상된다. 성능이 좋은 기계학습 모델을 위해서는 충분한 데이터를 확보하는 것이 좋고, 데이터가 많을수록 학습한 모델의 일반화 능력이 향상되고, 새로운 데이터의 예측 정확도가 높아질 수 있다.

또한 데이터의 질이 좋아야 한다. 양질의 데이터인지 판단하기 위해서는 다음 두 가지를 고려하여야 한다. 첫째, 데이터가 문제 해결의 목적에 적합해야 한다. 둘째, 최신의 데이터를 사용하는가가 데이터의 질을 결정한다.

최종적으로 기계학습 모델을 학습시키기 위해서는 데이터를 컴퓨터가 학습할 수 있는 형태로 가공해야 한다. 첫째, 학습에 사용할 데이터는 컴퓨터에서 다룰 수 있고 처리할 수 있는 형식이 어야 한다.둘째, 기계학습 모델을 학습시키려면 실세계의 데이터가 논리적으로 표현되어야한다. 예를 들어, 학생은 학년, 반, 번호, 이름, 나이, 성별, 수강 과목 등 다양한 데이터 속성들의 조합으로 표현할 수 있다.

기계학습을 이용해 특정한 문제를 해결하기 위해서는 현실 세계의 사람, 사물, 개념 등을 추상화하여 컴퓨터가 처리할 수 있는 데이터 형태로 만들어야만 한다. 데이터 속성이란 의미를 가지면서 더 이상 분리되지 않는 데이터의 최소단위를 뜻한다. 기계학습에서 데이터 속성은 학습된 모델의 예측 정확도를 높이는 데 중요한 역할을 한다. 데이터가 갖는 다양한 속성 중에 기계학습에 필요한 데이터 속성으로 무엇을 선택하느냐가 모델의 학습과 예측 정확도에 결정적인 영향을 끼친다.

정형 데이터와 비정형 데이터

정형 데이터(structured data)는 정형화된 형태로 표현된 데이터이다. 컴퓨팅도구를 이용하여 바로 처리할 수 있어서 통계 분석을 하거나, 삽입, 삭제, 수정, 검색 등의 연산을 할 수 있다. 정형 데이터는 데이터 속성 이름, 속성값, 그리고 속성들의 관계로 표현되기 때문에 그 의미를 파악하기가 쉽다. 비정형 데이터(unstructured data)는 정형화된 형태가 없는 데이터이다. 내용적인면에서도 데이터가 규칙 없이 구성되어 의미나 속성의 파악이 어렵다. 기계학습에서비정형 데이터를 그대로 사용하는 경우도 있지만, 대부분 별도의 데이터 분석 기술이나 도구를 사용해야 하는 등 사전 작업 단계에서 많은 시간과 비용이 발생한다.비정형 데이터에는 문자, 소리, 이미지, 동영상 등이 있다. 반정형 데이터(semi-structured data)는 형식은 있으나 고정된 구조가 아니어서, 기계학습에 이용하기 위해서는 데이터를 정리하고 분류하는 사전 작업이 필요한 데이터를 말한다. 반정형 데이터에는 각각 특정한 형식을 갖추고 구조화되어 있는 HTML, XML, JSON 형식의 파일이나 로그 파일 등이 있다.

데이터 시각화 기초

데이터 시각화는 데이터를 이해하기 쉽게 그림이나 도표로 표현하고 전달하는 과정을 의미한다. 데이터 시각화를 이용하면 많은 양의 데이터를 한눈에 볼 수 있어데이터의 특징과 속성 간의 관계를 파악하기 쉽다.시각화된 자료는 데이터가 가진 의미를 잘 이해할 수 있어서 분석이 용이하고 핵심 속성을 찾아내기 쉽다. 데이터를 시각화하면 다른 사람에게 데이터 분석 결과를 전달하고 공유하기도 쉽다.

데이터를 시각화하고 분석하는 대표적인 방법으로는 탐색적 데이터 분석(EDA)이 있다. 탐색적 데이터 분석 방법으로 데이터를 살펴보면 기계학습으로 사용할데이터를 종합적으로 이해할 수 있다.

데이터 시각화 응용

탐색적 데이터 분석 방법과 파이선의 다양한 시각화 기능을 사용하여 데이터 속성들의 관계를 시각화하고 그 결과를 살펴볼 수 있다. 데이터 속성들의 관계를 수치로 나타내면 데이터 속성 간의 관계가 한눈에 보이지만 수치 정보로 복잡하게 나와 있어서 쉽게 내용을 파악하기어렵다. 따라서 이를 시각화하여 자세히 살펴보는 것이 필요하다.파이선에서 그래프로 시각화하여 데이터 속성들의 관계를 파악하기 위해서는맷플롯립 라이브러리를 이용한다. 또한 히트 맵을 이용하면 상관 계수와 함께 관련성 정도를 색깔로 표시하여 속성 간의관계를 쉽게 파악할 수 있다.

포털:고등학교/기술·가정/인공지능 기초(2015 개정)

인공지능의 이해

인공지능과 사회

인공지능과 에이전트

인공지능의 원리와 활동

인식

탐색과 추론

학습

데이터와 기계학습

데이터의 이해와 처리

기계학습의 실제

인공지능의 사회적 영향력

인공지능의 영향력

인공지능 윤리