이상값 탐지 2

[데이터전처리] Outlier(이상치/이상값/특이값/특이치 등) 탐지 방법(detection method) : 3. Isolation Forest 알고리즘 with 파이썬

Isolation Forest는 앙상블 의사 결정 트리 기반 모델에 속하는 비지도 학습 알고리즘으로 의사 결정 트리를 기반으로 구축되었다. 이 방식은 먼저 올린 IQR이나 Z-score 방식 외 주요 인기있는 이상 감지 알고리즘과는 많이 다르다. 다른 다수의 방식들은 데이터의 정상 영역을 찾는 것을 시도한 다음 정상 영역이라고 정의한 영역 외부의 모든 항목이 이상치 또는 비정상인지를 식별한다. Isolation Forest 알고리즘 개념 그러나 Isolation Forest 방법은 다르게 작동한다. 데이터에 Isolation Forest 알고리즘을 적용하면 이상값들이 일반 지점에 비해 나머지 샘플에서 분리(격리)되는 경향이 있다. 그래서 각 데이터 포인트에 점수를 부여하여 정상적인 관측값과 영역을 프로파..

[데이터전처리] Outlier(이상치/이상값/특이값/특이치 등) 탐지 방법(detection method) : 2. Z-score 방식 with

이상치 탐지 두번째 시간은 Z-score 방식에 대해서 알아본다. Z-score는 통계에서 중요한 개념이고, 다른 이름으로 Standard-score라고도 한다. 이 방법은 변수에 가우스 분포가 취하고 있다는 가정으로 시작하고, 관측치가 평균에서 벗어난 표준 편차의 수를 나타낸다. 포인트 그룹의 평균 및 표준 편차와의 관계 측면에서 데이터 포인트를 설명하는 방법이라고 볼 수 있다. 이 score는 데이터 값이 평균보다 큰지 작은지를 확인할 수 있게 해주고, 평균 포인트에서 얼마나 떨어져 있는지를 이해할 수 있도록 도움을 주는데, 보다 구체적으로 Z-score는 데이터 포인트가 평균에서 얼마나 떨어져 있는지를 나타내고 있다. Z score = (x -mean) / std. deviation 다음과 같이 추..