Data Science 5

DACON HD현대 AI Challenge(EDA)

우선 각 feature들의 데이터 분포를 시각화해보았다.1. KDE와 히스토그램 2. Q-Q plot=> 전체적으로 정규분포를 따르지 않는 feature들이 많음을 알 수 있다. 이를 통해 알 수 있는 사실은 다음과 같다. 1. 이상치가 다수 존재할 수 있음.2. 다수의 통계 검정 방법이나 선형 모델을 사용하기 어려움.(로그 변환 등 필요할 가능성) => 이 외에도 ATA를 year, month, Hour로 쪼개 막대그래프를 그리거나, Object들에 대해 막대그래프를 그려보는 과정을 거쳤다.그 다음은 각 feature들간의 상관관계를 분석하였다.(히트맵 표시)그 결과, 상관관계가 꽤 있다고 판단되는 붉은 사각형 영역이 보였다. 이를 후에 Feature Selection 혹은 엔지니어링을 할 때 참고하도..

프로젝트 2024.05.20

DACON HD현대 AI Challenge(Data preprocessing)

더보기주어진 데이터 구조ARI_CO도착항의 소속국가(도착항 앞 2글자)  ARI_PO도착항의 항구명(도착항 뒤 글자)  SHIP_TYPE_CATEGORY선종 통합 바탕으로 5대 선종으로 분류  DIST정박지(ber_port)와 접안지 사이의 거리km ATAanc_port에 도착한 시점의 utc. 실제 정박 시각(Actual Time of Arrival)hour ID선박식별 일련번호  BREADTH선박의 폭m BUILT선박의 연령year DEADWEIGHT선박의 재화중량톤수ton DEPTH선박의 깊이m DRAUGHT흘수 높이m GT용적톤수(Gross Tonnage)값GT(m^3) LENGTH선박의 길이m SHIPMANAGER선박 소유주  FLAG선박의 국적  U_WIND풍향 u벡터m/sATA 시점 이전에 ..

프로젝트 2024.05.20

데이터 과학 - 5. Data Acquisition

* Data Acquisition CRISP-DM에서 데이터 이해 과정을 생각해보자. 1. 초기 데이터 수집. 2. 데이터 묘사. (데이터 셋의 field, records 등에 대한 설명서) 3. 데이터 탐색. (querying, visualization 그리고 요약을 통해 데이터 과학 질문, 데이터가 어떤 영향을 끼치는지 파악) 4. 데이터의 Quality 검증. (데이터의 결측이나 오류 등을 검증한다.) TDSP에서 데이터 습득 및 이해 과정을 생각해보자. - 목표 : 대상 변수와의 관계가 파악된 깨끗한 고품질 데이터 세트 생성, 데이터를 정기적으로 고치고 점수를 매기는 데이터 파이프라인의 개발. - 과정 : 데이터 수집 -> 데이터 탐색 -> 데이터 파이프라인 설정하여 새로운 데이터 점수 매김. =..

개인 공부 2024.04.09

데이터 과학 - 1. Introduction to Data Science

평소에도 관심이 많았고, 앞으로 내가 할 연구들에도 중요한 가치를 지닌 지식이 될 것 같아 이번 학기에 데이터 과학을 듣게 되었다. 경험상 무언가 학습을 시작하기 전에 "왜 이 과목을 배우고 이 과목은 무엇인가."를 알아야 더 이해가 잘되는 것 같아서 Data Science에 관해 알아보고 시작을 하려고 한다. * 무엇이 Data Science일까? => Facts, insights, meanings...에 기반하여 어떻게 데이터를 "이해"할 것인지를 다루는 것. (Data Engineering은 어떻게 데이터를 효율, 효과적이게 처리할 것이냐.) * Data Science는 기능적으로 사람 중심의 분야이며, data를 기반해 사람의 decision-making을 돕는 기능을 한다. 결국 data를 분석..

개인 공부 2024.04.02

데이터 과학 - 기상청 최고 기온, 최저 기온 데이터 크롤링하기

!pip install mechanize import mechanize import http.cookiejar cj = http.cookiejar.CookieJar() br = mechanize.Browser() br.set_cookiejar(cj) br.open("https://www.weather.go.kr/w/obs-climate/land/past-obs/obs-by-day.do") data = br.response().read().decode('utf-8') import time import re a = 0 data_points = [] for i in range(1, 120): for j in range(1, 13): url = "https://www.weather.go.kr/w/obs-clim..

개인 공부 2024.04.01