[윤석용의 철강AI] '탐색적 데이터 분석과 데이터 시각화'
[윤석용의 철강AI] '탐색적 데이터 분석과 데이터 시각화'
  • 윤석용
  • 승인 2024.05.14 03:00
  • 댓글 0
이 기사를 공유합니다

윤석용 교수 (명지대 기록정보과학대학원 AI정보과학전공)
윤석용 교수 (명지대 기록정보과학대학원 AI정보과학전공)

데이터는 존재가 아닌 활용에서 그 가치를 찾아야 한다. 어쩌면 많은 양의 데이터를 관리·보관하기 위한 비용은 기업의 부채일 수 있다. 금과 같은 귀금속은 유한성과 희소성이 맞물려 가공하지 않은 존재만으로 가치를 평가받을 수 있지만, 데이터는 묵힌다고 높은 가치를 보장받을 수 없고, 가공한다고 부가가치를 올릴 수 없는, 즉 활용에서 가치를 찾는 독특한 자산이다.

데이터의 가치를 활용에서 찾으려면, ‘탐색적 데이터 분석(Exploratory Data Analysis, EDA)’이 그 시작이라고 할 수 있다. EDA는 어느 정도 전문적 지식을 요구하지만, 그렇다고 그렇게 거창한 태스크가 아니다. 담당 업무를 하면서 직접 만든 데이터나 회사 내 존재하는 여러 데이터를 요약하고 정리하는 탐색 과정으로, 누구나 할 수 있다. 결코 오랜 경력을 갖고 있는 전문가들만의 업무가 아니라는 뜻이다.

‘빅데이터 분석, 기계학습, 인공지능’ 이러한 단어들을 들으면 규모 있는 인프라를 구축하고, 고가의 패키지를 도입하고, 관련된 학위를 갖고 있는 전문가를 떠올리지만, 그것은 회사의 데이터 활용 성숙도(Maturity)와 준비도(Readiness)가 어느 정도 이상이 되었을 때 생각해도 된다. 업무를 위하여 만들었던 엑셀 파일이나, 조직 내 업무·생산시스템을 운영하면서 축적된 데이터만으로도 얼마든지 데이터 분석이 가능하고, 의미 있는 결과를 만들 수 있다. 이러한 접근은 지난 기고에 이야기했던 CDS(Citizen Data Scientist)와 맥을 같이한다.

EDA는 데이터를 이해하기 위한 과정으로 데이터 시각화(Data Visualization) 및 통계적 도구를 이용하여 데이터의 패턴, 데이터들의 관계, 데이터의 이상치 등을 발견하고 데이터의 특성과 구조를 이해함으로써 데이터에서 인사이트 찾아가는 과정이다.

EDA는 1977년 존 튜키(John Tukey)의 저서 ‘Exploratory Data Analysis’와 관련 논문에서 처음 언급되었고, 주어진 데이터를 조사하고 이해하기 위한 접근 방법으로 데이터에 대한 이해를 증진하고 인사이트를 발견하는 과정으로 설명하고 있다. 존 튜키는 EDA를 저서에서 이렇게 정의하는데, “데이터 분석가의 의도가 아닌, 데이터 자체가 말하려는 것을 봐라. 이를 위해서는 단순한 사칙연산과 간단한 데이터 시각화면 충분하다.” 이는 EDA를 짧고 명료하게 설명하고 있다고 볼 수 있다.

EDA의 수행은 1. 데이터 이해 (Understanding data), 2. 데이터 정리와 요약 (Summarizing data), 3. 데이터 탐색 (Exploring data), 4. 인사이트 발견 (Discovering insight) 단계로 진행된다.

EDA에서 데이터를 요약하고 탐색하는 과정에 기술통계(Descriptive Statistic)와 더불어 중요한 것이 데이터 시각화이다. 데이터 시각화란 데이터를 그래프, 차트, 맵과 같은 시각적 요소로 표현하는 기술로, 숫자와 통계만으로는 이해하기 어려운 복잡한 데이터를 시각적으로 표현하여 쉽게 이해하고 분석할 수 있게 도움을 주는 방법이다. 또한 데이터 시각화는 의사소통의 수단이기도 하다.

그런데 데이터 시각화의 결과에 대하여 자세한 설명이 없으면 이해할 수 없거나 복잡한 다차원의 표현으로 즉각적 이해가 불가능하다면 인사이트를 찾는다는 목적은 사라지고 시각화 결과의 신기한 여운만이 있을 뿐이다. 존 튜키의 이야기대로 간단한 시각화 도구의 활용과 시각화 결과의 즉각적 이해가 더 큰 의미를 준다고 볼 수 있다.

성공적인 데이터의 시각화를 위해서는 1. 데이터 시각화의 목적(Goal), 2. 데이터 시각화의 형태(Visual Form), 3. 시각화 결과가 담고 있는 정보(Information), 4. 시각화 전체 스토리(Story)의 요소를 갖추어야 한다.

데이터 시각화는 화려함이나 나만 해석할 수 있는 이미지를 만드는 것이 아니라, 원천 데이터와 통계량만으로는 볼 수 없었던 인사이트를 찾기 위한 도구로 이해해야 한다.

데이터 분석과 기계학습이 아무리 좋은 결과를 가져올 수 있어도 전문가들만의 전유물이라고 한다면, 회사 내 데이터 기반의 의사결정 문화를 만든다는 것은 그저 구호에 그칠 뿐이다. 모든 임직원이 회사 내 데이터를 이용하여 쉽게 탐색적 데이터 분석과 데이터 시각화를 수행하여 업무에 활용할 수 있게 된다면, 빅데이터 분석이나 인공지능은 전문가의 전유물도 Sci-Fi 영화의 한 장면도 아닌, 회사에서 데이터를 활용하여 업무를 수행하기 위한 멋진 도구이자 자산이다.

 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.