TTA 한국 정보통신기술협회

통합검색
  • 국내학술논문 KISS
  • IT종합정보데이터베이스
  • 해외표준정보
  • 학술데이터베이스
  • 글로벌트렌드DB
  • ATLAS동향정보
Home ㆍ자료마당ㆍTTA 간행물ㆍ ICT Standard Weekly

ICT Standard Weekly

TTA 신규용어 소개

위클리자료 상세보기
군집 분석

New Template 군집 분석, 群集分析, Cluster analysis 동의어 : 군집화

서로 유사한 정도에 따라 다수의 객체를 군집으로 나누는 작업 또는 이에 기반한 분석.

동일한 군집에 속하는 객체 간의 유사도가 그렇지 않은 객체 간의 유사도보다 평균적으로 높도록 군집을 구성한다. 대표적인 비지도 기계 학습(unsupervised machine learning) 방법으로, 데이터의 분할 및 요약에 널리 이용되며 데이터에서 유용한 지식을 추출하는 데 활용된다.
객체의 종류에 따라 다양한 유사도 기준이 적용된다. 대표적으로 유클리드 거리(Euclidean distance, 두 객체 사이의 직관적인 거리)와 코사인 유사도(두 객체 사이의 각도) 등이 있다.
데이터 군집 분석을 위한 다양한 방법과 알고리즘이 개발되어 있다. 최적의 군집 개수를 정하거나 군집 분석 결과의 정확도를 평가하는 객관적인 기준은 없으며, 배경 지식에 근거한, 사람의 주관적인 평가가 필요하다. 대표적인 군집 분석 방법으로 ‘계층적 군집화’와 ‘k-평균 군집화’를 들 수 있다. 계층적 군집화는 모든 객체가 하나의 군집에 포함되는 경우부터 객체 하나하나가 각각의 군집을 구성하는 경우까지 단계적으로 군집을 구성하는 방법이다. 상향식 방법과 하향식 방법이 있다. k-평균 군집화는 사용자가 군집의 개수 ‘k’를 미리 결정하는 방법으로, 초기화 상태에 따라 다양한 결과를 얻게 된다.
군집 분석은 마케팅 분야에서 고객 데이터를 활용하여 고객 군집을 구성한 뒤 각 군집별로 맞춤형 마케팅 전략을 고안하는 데 적용되고 있고, 생의학 분야에서는 유전자 군집을 분석하여 유전자의 기능을 예측하거나 암환자 군집을 분석하여 암의 새로운 아형(subtype)을 발견하는 데 활용되고 있다.
군집 분석은 1932년 헤럴드 드라이버(Harold E. Driver)와 앨프리드 크로버(Alfred L. Kroeber)가 처음 시도한 것으로 알려져 있다.
이전 웹 기반 그래픽스 라이브러리
다음 데이터 채굴

TTA SERVICE

top