그동안 데이터전처리 관련 포스팅을 아주 오랫동안 쉬었다가 오랜만에 작성을 해본다. 지난번에 포스팅 한 이상치 처리 시리즈는 모두 일변량 이상치 감지에 관한 것이었고, 오늘부터는 이변량과 다변량 이상치 감지에 관한 포스팅으로 작성하려고 한다. 그리하여 다변량 분석에 속하는 첫번째 이상치 감지 알고리즘은 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)에 관한 것이다. 이 알고리즘은 클러스터에 속하지 않는 점을 이상값으로 식별하는 클러스터링 알고리즘인 K-Means의 대안으로 사용하기도 한다. 클러스터 수를 미리 지정할 필요가 없다는 점을 제외하면 K-Means와 같다. 클러스터링은 유사한 데이터 포인트들이 그룹화되는 방식으로 데이터 포..