dacon 2

DACON HD현대 AI Challenge(EDA)

우선 각 feature들의 데이터 분포를 시각화해보았다.1. KDE와 히스토그램 2. Q-Q plot=> 전체적으로 정규분포를 따르지 않는 feature들이 많음을 알 수 있다. 이를 통해 알 수 있는 사실은 다음과 같다. 1. 이상치가 다수 존재할 수 있음.2. 다수의 통계 검정 방법이나 선형 모델을 사용하기 어려움.(로그 변환 등 필요할 가능성) => 이 외에도 ATA를 year, month, Hour로 쪼개 막대그래프를 그리거나, Object들에 대해 막대그래프를 그려보는 과정을 거쳤다.그 다음은 각 feature들간의 상관관계를 분석하였다.(히트맵 표시)그 결과, 상관관계가 꽤 있다고 판단되는 붉은 사각형 영역이 보였다. 이를 후에 Feature Selection 혹은 엔지니어링을 할 때 참고하도..

프로젝트 2024.05.20

DACON HD현대 AI Challenge(Data preprocessing)

더보기주어진 데이터 구조ARI_CO도착항의 소속국가(도착항 앞 2글자)  ARI_PO도착항의 항구명(도착항 뒤 글자)  SHIP_TYPE_CATEGORY선종 통합 바탕으로 5대 선종으로 분류  DIST정박지(ber_port)와 접안지 사이의 거리km ATAanc_port에 도착한 시점의 utc. 실제 정박 시각(Actual Time of Arrival)hour ID선박식별 일련번호  BREADTH선박의 폭m BUILT선박의 연령year DEADWEIGHT선박의 재화중량톤수ton DEPTH선박의 깊이m DRAUGHT흘수 높이m GT용적톤수(Gross Tonnage)값GT(m^3) LENGTH선박의 길이m SHIPMANAGER선박 소유주  FLAG선박의 국적  U_WIND풍향 u벡터m/sATA 시점 이전에 ..

프로젝트 2024.05.20