프로젝트

DACON HD현대 AI Challenge(EDA)

Beige00 2024. 5. 20. 15:49

우선 각 feature들의 데이터 분포를 시각화해보았다.

1. KDE와 히스토그램

 

2. Q-Q plot

=> 전체적으로 정규분포를 따르지 않는 feature들이 많음을 알 수 있다. 이를 통해 알 수 있는 사실은 다음과 같다.

 

1. 이상치가 다수 존재할 수 있음.

2. 다수의 통계 검정 방법이나 선형 모델을 사용하기 어려움.(로그 변환 등 필요할 가능성)

 

=> 이 외에도 ATA를 year, month, Hour로 쪼개 막대그래프를 그리거나, Object들에 대해 막대그래프를 그려보는 과정을 거쳤다.


그 다음은 각 feature들간의 상관관계를 분석하였다.(히트맵 표시)

그 결과, 상관관계가 꽤 있다고 판단되는 붉은 사각형 영역이 보였다. 이를 후에 Feature Selection 혹은 엔지니어링을 할 때 참고하도록 해야겠다.