1. 데이터 마이닝이란 무엇인가?
1990년대 중반부터 데이터 마이닝이라는 분야가 생기기 시작했습니다. 아직까지도 데이터마이닝이란 분야는 많이 생소한 분야인데요. 데이터 마이닝이란 무엇일까요? 데이터 마이닝에 대한 몇 가지 정의를 모아봤습니다.
Extracting useful information from larget datasets ( Hand et al., 2001 )
Data mining is the process of exploration and analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns and rules. ( Berry and Linoff, 1997, 2000 )
Data mining is the process of discovering meaningful new correlations, patterns and trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques. ( Gartner Group, January 2004 )
이외에도 데이터 마이닝에 대한 여러가지 정의들이 있습니다. 하지만 공통적인 점은 많은 데이터들의 집합에서 의미있는 정보를 추출해 낸다는 것입니다. 예를 들면, 대형마트의 데이터 집합에서 "기저귀 옆에 맥주를 진열 했더니 매출이 늘어났다."라는 지식을 뽑아 낼 수 있는 것입니다. 남편들이 기저귀를 사러 나와서 맥주도 같이 사는 패턴이 있었던 것입니다. 이렇듯 데이터 마이닝을 이용하면 재미있는 결과와 함께 비즈니스 업계에서느 매출의 증대도 노려 볼 수 있습니다.
Listening Post by Fenchurch! |
2. 데이터마이닝은 어디에 쓰이는가?
데이터 마이닝은 많은 데이터에서 의미있는 정보를 추축해 내는 작업입니다. 의미있는 정보가 어디에 쓰이느냐에 따라서 데이터 마이닝이 어디에 쓰이는지도 결정되게 됩니다.
대표적인 예가 비즈니스에서 매출 증대를 위한 패턴 분석이 있겠구요. 군사적으로도 여러가지 요소들이 폭탄의 폭파 정확도에 미치는 영향도 분석할 수가 있습니다. 보안에서는 어떤 패킷이 위험 요소를 담고 있는지 기존의 패킷 정보들로부터 예측 할 수 있는 시스템도 있습니다.
하지만 아무래도 가장 집중을 받고 있는 사용분야는 비즈니스 일 것입니다. 예를 들면 고객들의 키와 매출과의 관계, 나이, 성별과 같은 요소와 매출과의 관계, 매장에 머무는 시간과 매출과의 관계 등등 여러 요인 간의 상호 관계를 처리하여 마케팅의 효율을 높여 줄 수 있습니다.
Attic studio: Enough Computing Power? by moriza |
3. 데이터 마이닝의 유래.
데이터 마이닝은 통계학에서부터 시작합니다. 주어진 데이터 집합을 분석해서 목표로 하는 정보를 얻어내는 통계학과 많이 닮은 모습입니다.
하지만 통계학과 많이 다른 모습도 갖고 있습니다. 예를 들면, 일단 통계학을 이용하던 시기에는 얻을 수 있는 데이터 집합의 크기가 매우 작았습니다. 그래서 통계학적 원리와 이론을 적용 시킬 수 있는데에 한계가 많이 존재 했죠. 하지만 데이터 마이닝은 인공지능과 데이터 베이스라는 기계적인 요소를 이용해서 처리를 하기 때문에 기존의 방법보다 더 많은, 더 새로운 지식을 얻을 수 있습니다.
또 한 기저가 되는 데이터 집합의 수도 웹 2.0 시대, 그리고 저렴한 컴퓨팅 비용으로 인해서 폭발적으로 늘어나고 있습니다. 이런 수 많은 데이터 집합을 이용해서 정보를 이끌어 낸다는 것이 기존의 통계학과 데이터 마이닝 분야가 다른 점입니다.
Information Superhighway by nickwheeleroz |
앞에서도 말했듯이 사용할 수 있는 데이터의 증가는 데이터 마이닝의 중요성을 증가시켰습니다. 그럼 이런 폭발적인 데이터의 증가는 어디에서 오는 것일까요?
첫 번째로 웹의 발달입니다. 누구나 웹에 접속하여 데이터를 생산 할 수 있고, 볼 수 있게 되었습니다. 지금도 매 순간마다 전세계에서 의미가 있던 없던 엄청난 양의 데이터가 생산되고 있습니다. 여러분이 이 글을 보는 순간에도 여러분이 얼마나 접속해 있는지, 어떤 경로를 통해서 들어왔는지 여러분의 IP는 무엇인지 등등이 기록이 되고 있습니다.
두 번째로 저장 비용의 저렴함입니다. 저장 용량당 비용은 점점 줄어들고 있습니다. 이제 하드디스크가 1TB를 넘는 제품까지 등장하고 있습니다. 불과 10년 전만해도 GB 급의 하드디스크도 정말 유용하고 잘 사용했었죠. 하지만 개인 사용자도 이렇게 데이터들을 하드디스크에 저장을 하고 있는 것을 보면 웹 서버에 저장되는 정보의 양은 정말 엄청 날 것이란 걸 알 수가 있습니다.
세 번째로 저장되는 정보의 다양화입니다. 초창기에는 저장되는 정보가 별로 없었습니다. 예를 들면, 기상청에서 초창기에는 풍량과 풍향, 온도만 기록했다고 합시다. 하지만 시간이 지나면서 습도도 기록하기 시작했고, 강수량, 강우량도 추가로 기록하기 시작했다고 합시다. 그렇게 되면 생산되는 정보의 양도 늘어나게 됩니다. 이런 현상은 기상청 이외의 많은 부분에서도 볼 수가 있습니다. ( 슈퍼마켓의 고객 분석 시스템의 경우도 마찬가지이죠. )
이런 데이터의 폭발적인 증가는 데이터 마이닝의 수요를 늘리게 되었고, 데이터 마이닝이라는 분야가 발전하게끔 해주는 원동력이 되었습니다.
Business Graph by nDevilTV |
5. 데이터 마이닝의 방법은??
데이터 마이닝이란 분야는 정확한 정답이라기 보다는 통계학적 접근이기 때문에 많은 방법론적인 접근이 있습니다. 같은 데이터 집합을 두고 분석하는 방법이 여러가지이기 때문에 분석 결과도 여러가지이죠.
각 방법들에는 장, 단점이 존재하기 때문에 여러가지 방법이 존재 할 수 있는 것입니다. 데이터 마이닝을 배우는 것도 이런 여러가지 방법들을 잘 이해하고 어떤 프로젝트에 어떤 방법을 사용하는 것이 더 적절한지를 아는 것이 데이터 마이닝을 배우는 목적이라고 할 수 있겠습니다.
Reading Is Fundamental by Troy Holden |