데이터시각화 3

[데이터전처리] Outlier(이상치/이상값/특이값/특이치 등) 탐지 방법(detection method) : 4. DBSCAN 알고리즘 with 파이썬

그동안 데이터전처리 관련 포스팅을 아주 오랫동안 쉬었다가 오랜만에 작성을 해본다. 지난번에 포스팅 한 이상치 처리 시리즈는 모두 일변량 이상치 감지에 관한 것이었고, 오늘부터는 이변량과 다변량 이상치 감지에 관한 포스팅으로 작성하려고 한다. 그리하여 다변량 분석에 속하는 첫번째 이상치 감지 알고리즘은 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)에 관한 것이다. 이 알고리즘은 클러스터에 속하지 않는 점을 이상값으로 식별하는 클러스터링 알고리즘인 K-Means의 대안으로 사용하기도 한다. 클러스터 수를 미리 지정할 필요가 없다는 점을 제외하면 K-Means와 같다. 클러스터링은 유사한 데이터 포인트들이 그룹화되는 방식으로 데이터 포..

[데이터전처리] Outlier(이상치/이상값/특이값/특이치 등) 탐지 방법(detection method) : 3. Isolation Forest 알고리즘 with 파이썬

Isolation Forest는 앙상블 의사 결정 트리 기반 모델에 속하는 비지도 학습 알고리즘으로 의사 결정 트리를 기반으로 구축되었다. 이 방식은 먼저 올린 IQR이나 Z-score 방식 외 주요 인기있는 이상 감지 알고리즘과는 많이 다르다. 다른 다수의 방식들은 데이터의 정상 영역을 찾는 것을 시도한 다음 정상 영역이라고 정의한 영역 외부의 모든 항목이 이상치 또는 비정상인지를 식별한다. Isolation Forest 알고리즘 개념 그러나 Isolation Forest 방법은 다르게 작동한다. 데이터에 Isolation Forest 알고리즘을 적용하면 이상값들이 일반 지점에 비해 나머지 샘플에서 분리(격리)되는 경향이 있다. 그래서 각 데이터 포인트에 점수를 부여하여 정상적인 관측값과 영역을 프로파..

[EDA] 효율적인 데이터 탐색 & 시각화 도구 : 파이썬 '판다스 비주얼 어날리시스(pandas visual analysis)' 라이브러리 활용하기

데이터 분석을 하는 사람이라면 데이터 분석 초반에 상당 수의 시간을 EDA(Exploratory Data Analysis) 작업에 많이 쏟게 된다. 이 과정은 왜 필요한 것일까? EDA 작업을 통해서 전반적인 변수들의 분포 및 변수간의 관계는 물론 특이하거나 이상한 패턴을 시각화를 통해서 발견할 수도 있고, 정확한 분석 결과를 도출하기 위해 도움이 될 만한 새로운 변수&피쳐 생성 관련한 아이디어도 얻을 수 있기 때문이다. 참고) EDA가 무엇인가는 하단의 포스팅에서 살펴볼 수 있다 :) [데이터분석] 탐색적 데이터 분석 'EDA(Exploratory Data Analysis)'의 중요성 데이터 분석의 여러 과정 중, 가볍다면 가볍게 볼 수 있고, 쉽게 지나칠 수 있는 과정인 'EDA의 중... blog...