데이터 과학 8

데이터 과학 - 10. Association Rule Mining

universal set U가 있다고 가정하자. 이 U의 subset들을 itemset I라고 정의하고, |I| = k일 시, k-Itemset이라고 부를 수 있다고 하자. 이 때 Association Rule Mining에서 관심이 있는 ItemSet들의 집합을 S라고 하자. S의 각 itemset들을 Transaction T라고 정의하면 결론적으로 itemset I의 Support는 다음과 같이 정의된다. 즉, support(I)는 전체 Transaction에서 특정 Itemset들이 얼마나 포함되는 지를 의미한다. => I = {beer, bread}일 때 suppprt(I)는 Transaction들에서 1.4.5.6이 해당되므로 4이다. 이 때, association rule R은 I1->I2와 ..

개인 공부 2024.04.24

데이터 과학 - 9. Statistical Data Analysis PART 2

* Inferential Statistics? => 통계적 추론은 우리가 수집한 모집단에서 Sample을 추출해서 진행하는 통계적 데이터 분석 방법이다. 해당 추정 방법에는 Point Estimation, Interval Estimation 방법이 있다. 1. Point Estimate => 특정 값을 추정하여 모집단의 parameter를 추정. 2. Interval Estimate => 구간을 사용하여 모집단의 patameter를 그리는 방법. 특정 Point를 정의하고 그 Point에서 +-를 하는 방식으로 신뢰 구간을 정하는 것이 일반적이다. * Biased/Unbiased Estimator -> 이렇게 해서 추정된 estimator θ'가 E(θ') = θ일 시, Unbiased Estimator..

개인 공부 2024.04.21

데이터 과학 - 9. Statistical Data Analysis PART 1

* Descriptive Statistics => 주어진 데이터를 잘 요약하는 방법. data를 의미있게 요약한다.(주어진 데이터의 정규분포 여부 등) (여기서 Data는 Numerical, Categorical를 생각한다.) - Distribution => 특정 Range로 나누어 data들의 frequency로 나타낸 것.(Data visualization과 Data reduction에서 다루었다.) => Distribution을 묘사하는 방법은 Visualization으로 하는 방법과 Numerical 적인 수치로 묘사하는 방법이 있다. 물론 이 방법 중 하나를 골라쓰는 것이 아니라 둘다 사용해야 객관적인 묘사가 가능하다. (Histogram을 그리면서 mean, S.D. 와 같은 수치도 묘사한다...

개인 공부 2024.04.19

데이터 과학 - 8. Data Preprocessing Part 2

* Data Reduction => data가 크면 분석하는데 cost가 높아진다. 따라서 데이터의 크기를 줄이는 과정이 필요하다. Data Reduction의 전력으로는 차원 축소, 수치 축소, 데이터 압축이 있다. * Curse of dimensionality : 데이터의 차원이 크면 data들은 점점 넓게 퍼지게 되고, 점 간의 밀도와 거리는 clustering, outlier 분석에 중요하므로 이는 좋지 않다. => Dimensionality reduction : irrelevant feature와 noise 제거의 도움이 된다 또한 data mining의 소요 cost를 줄이고 visualization을 쉽게 해준다. * Dimensionality reduction 1. Fourier trans..

개인 공부 2024.04.18

데이터 과학 - 8. Data Preprocessing(1)

왜 우리는 데이터 전처리를 해야할까? => real world의 데이터는 많은 오염이 되어있기 때문이다. - Incomplete : attribute value들의 종류 부족, 중요한 attribute의 부족, aggregate 데이터만 있는 경우. - Noisy : 오류 또는 outlier들의 다수 포함. - Inconsistent : 데이터 자체가 불일치성을 포함하고 있음.(ex: 성적을 집계하는데 어떤 데이터는 100점, 어떤 데이터는 A) 이러한 오염된 데이터는 데이터 마이닝의 결과에 심한 영향을 준다. 오염된 데이터가 판단의 결과에 영향을 준다는 것이다. * 데이터 오염도를 측정하는 measure들 : - multi-dimensional view : accuracy, completeness, c..

개인 공부 2024.04.14

데이터 과학 - 5. Data Acquisition

* Data Acquisition CRISP-DM에서 데이터 이해 과정을 생각해보자. 1. 초기 데이터 수집. 2. 데이터 묘사. (데이터 셋의 field, records 등에 대한 설명서) 3. 데이터 탐색. (querying, visualization 그리고 요약을 통해 데이터 과학 질문, 데이터가 어떤 영향을 끼치는지 파악) 4. 데이터의 Quality 검증. (데이터의 결측이나 오류 등을 검증한다.) TDSP에서 데이터 습득 및 이해 과정을 생각해보자. - 목표 : 대상 변수와의 관계가 파악된 깨끗한 고품질 데이터 세트 생성, 데이터를 정기적으로 고치고 점수를 매기는 데이터 파이프라인의 개발. - 과정 : 데이터 수집 -> 데이터 탐색 -> 데이터 파이프라인 설정하여 새로운 데이터 점수 매김. =..

개인 공부 2024.04.09

데이터 과학 - 1. Introduction to Data Science

평소에도 관심이 많았고, 앞으로 내가 할 연구들에도 중요한 가치를 지닌 지식이 될 것 같아 이번 학기에 데이터 과학을 듣게 되었다. 경험상 무언가 학습을 시작하기 전에 "왜 이 과목을 배우고 이 과목은 무엇인가."를 알아야 더 이해가 잘되는 것 같아서 Data Science에 관해 알아보고 시작을 하려고 한다. * 무엇이 Data Science일까? => Facts, insights, meanings...에 기반하여 어떻게 데이터를 "이해"할 것인지를 다루는 것. (Data Engineering은 어떻게 데이터를 효율, 효과적이게 처리할 것이냐.) * Data Science는 기능적으로 사람 중심의 분야이며, data를 기반해 사람의 decision-making을 돕는 기능을 한다. 결국 data를 분석..

개인 공부 2024.04.02

데이터 과학 - 기상청 최고 기온, 최저 기온 데이터 크롤링하기

!pip install mechanize import mechanize import http.cookiejar cj = http.cookiejar.CookieJar() br = mechanize.Browser() br.set_cookiejar(cj) br.open("https://www.weather.go.kr/w/obs-climate/land/past-obs/obs-by-day.do") data = br.response().read().decode('utf-8') import time import re a = 0 data_points = [] for i in range(1, 120): for j in range(1, 13): url = "https://www.weather.go.kr/w/obs-clim..

개인 공부 2024.04.01