데이터마이닝이란 다들 알고 있는것과 같이 데이터(data)에서 마이닝(mining)하는 것, 즉 데이터로부터 정보를 캐내는 작업을 의미 한다. 이것은 수많은 데이터들을 모아놓은 데이터베이스에서 숨어 있는 잘 알려지지 않은 유용한 정보를 통계적 기법으로 찾아내는 과정을 말한다.
데이터 마이닝은 컴퓨터의 도입과 함께 기업에서는 컴퓨터의 힘의 증가에 따라 통계적 기법과 기계학습의 중요성이 부각되었고, 데이터의 수집과 관리의 능력이 기업의 이익에 크게 기여한다는 것을 인식 하면서 그 중요성이 부각되기 시작했다.
이처럼 데이터마이닝은 글로벌 기업들이 1999년 까지 갖추어야할 중요한 성공요인중의 하나라고 인식할 정도로 값어치 있는 학문이며 기술이다.
수업시간에 항상 말했듯이 쉽게 데이커마이닝은 편의점에서 기저귀 옆에 맥주를 진열해 놓는 것 과 같이 우리는 볼 수 없었던 다른 부분의 데이터들의 관계와 패턴에 대해 알려주며 그것을 바탕으로 현실에 도입되어 실제로 기업의 이득을 불러온다. 또한 이처럼 데이터마이닝은 우리의 생각보다 넓고 깊게 사용되고 있으며 응용분야는 금융, 유통, 제조, 통신, 국방 등 한 나라의 거의 모든 분야서 실제 사용되고 있다.
시간이 흐름에 따라 데이터의 중요성이 점점 커지고 통계적 요소의 힘이 강해지며 기하급수적으로 커져가는 데이터들을 수집하고 처리하고 관리하는 방법이 기업의 중요한 부분을 차지함에 따라, 그 많은 데이터의 관계에 대해 파악하는 일 또한 기업이 떠안게 된 과제 중에 하나이다.
이런 중요한 데이터의 관계를 데이터마이닝이라는 훌륭한 기법으로 처리하며 실제 현실에 도입함으로써 기업에 막대한 이득을 가져다 줄 것이다.
그럼 이제부터 데이터마이닝의 프로세스의 하나인 CRISP-DM에 대해 알아보도록 하자.