분류 전체보기 106

확률 및 통계 - 9. Central Limit Theorem (CLT)

X1,...,Xn이 평균을 μ, 분산을 σ^2 으로 지니는 i.i.d. 조건 분포에서 random sampling(independent trials)되었다고 생각해보자.Sn = X1+X2+...+Xn, An = (Sn)/n 이다.이 때, 이전까지 증명했던데로 다음의 2가지는 자명한 사실이다. 1. E(An) = μ2. n을 무한으로 늘리면 An -> μ 그렇다면 An(Sn)의 분산은 매우 큰 n에 대해 어떻게 변하게 될까?더보기1. Ø(x) : x를 가지는 standard Normal density function.2. NA(a*,b*) = Ø(x)를 a*~b* 구간에서 적분한 값.9.1. Central Limit Theorem for Bernoulli trials성공 확률이 p인 베르누이 시행은 Sn ..

개인 공부 2024.05.23

DACON HD현대 AI Challenge(EDA)

우선 각 feature들의 데이터 분포를 시각화해보았다.1. KDE와 히스토그램 2. Q-Q plot=> 전체적으로 정규분포를 따르지 않는 feature들이 많음을 알 수 있다. 이를 통해 알 수 있는 사실은 다음과 같다. 1. 이상치가 다수 존재할 수 있음.2. 다수의 통계 검정 방법이나 선형 모델을 사용하기 어려움.(로그 변환 등 필요할 가능성) => 이 외에도 ATA를 year, month, Hour로 쪼개 막대그래프를 그리거나, Object들에 대해 막대그래프를 그려보는 과정을 거쳤다.그 다음은 각 feature들간의 상관관계를 분석하였다.(히트맵 표시)그 결과, 상관관계가 꽤 있다고 판단되는 붉은 사각형 영역이 보였다. 이를 후에 Feature Selection 혹은 엔지니어링을 할 때 참고하도..

프로젝트 2024.05.20

DACON HD현대 AI Challenge(Data preprocessing)

더보기주어진 데이터 구조ARI_CO도착항의 소속국가(도착항 앞 2글자)  ARI_PO도착항의 항구명(도착항 뒤 글자)  SHIP_TYPE_CATEGORY선종 통합 바탕으로 5대 선종으로 분류  DIST정박지(ber_port)와 접안지 사이의 거리km ATAanc_port에 도착한 시점의 utc. 실제 정박 시각(Actual Time of Arrival)hour ID선박식별 일련번호  BREADTH선박의 폭m BUILT선박의 연령year DEADWEIGHT선박의 재화중량톤수ton DEPTH선박의 깊이m DRAUGHT흘수 높이m GT용적톤수(Gross Tonnage)값GT(m^3) LENGTH선박의 길이m SHIPMANAGER선박 소유주  FLAG선박의 국적  U_WIND풍향 u벡터m/sATA 시점 이전에 ..

프로젝트 2024.05.20

확률 및 통계 - 8. Law of Large Number

* Law of Large Numbers for Discrete Random Variable * Markov's inequalityX가 P(X>=0) = 1인 r.v.일 때, 모든 t>0에 대해, P(X>=t) 더보기닫기증명) * Chebyshev InequalityX = discrete random variable with expected value  µ=E(X), and let ε>0 be any positive real number.더보기닫기증명)더보기닫기ex)E(X) =  µ, V(X) = σ^2 인 r.v. X에 대해 ε=kσ (k>0) 이라고 잡고 Chebyshev Inequality를 적용하면,이와 같이 정리가 된다.따라서 임의의 constant를 잡을 때, bound 값을 σ와 무관한 값으..

개인 공부 2024.05.07

확률 및 통계 - 7. Sums of Independent Random Variables

* Sums of Discrete Random Variable- ConvolutionX,Y : two independent discrete R.V. with distribution functions m(x) and m(y) (Ω : Integer)r.v. Z = X+Y.이 때, Z의 distribution은 X=k 라고 두고 m(z) = P(Z=z) = sum(P(X=k)P(Y=z-k)) {X=0~k} 로 구할 수 있다. 따라서 X,Y가 2개의 independent discrete r.v.s 이며 m1(x), m2(y)를 가진다고 하였을 때, m1(x), m2(y)의 convolution인 distribution function m3(z) = m1(x)*m2(y)는 다음과 같이 정의된다. 같은 식으로 접..

개인 공부 2024.05.07

DREAM: Dynamic Resource and Task Allocation for Energy Minimization in Mobile Cloud Systems - 2

* DREAM: Dynamic Resource and Task Allocation for Energy Minimization in Mobile Cloud SystemsJeongho Kwak, Member, IEEE, Yeongjin Kim, Student Member, IEEE, Joohyun Lee, Member, IEEE,and Song Chong, Member, IEEE를 읽고 작성된 글입니다.4. Trace and Dataset Driven SimulationA. Measurement, Traces and DatasetsCPU, network energy 모델의 현실적인 parameter를 얻기 위해 4대의 스마트폰을 활용하였다고 한다.(LTE, 3G)다양한 clock speed의 CPU아 3G,..

논문 2024.05.02

DREAM: Dynamic Resource and Task Allocation forEnergy Minimization in Mobile Cloud Systems - 1

* DREAM: Dynamic Resource and Task Allocation for Energy Minimization in Mobile Cloud Systems Jeongho Kwak, Member, IEEE, Yeongjin Kim, Student Member, IEEE, Joohyun Lee, Member, IEEE, and Song Chong, Member, IEEE를 읽고 작성된 글입니다.0. Abstract최근에는 Edge computing 등 다양한 기술이 모바일 단에서 이루어지기 때문에 모바일 장치들의 에너지 소비가 급증하는 추세이다. 하여 이에 대한 대안들이 많이 제시되어왔는데, 그 예시로는 "Mobile cloud offloading"이 있다.Mobile cloud offloadi..

논문 2024.05.02

데이터 과학 - 12. Clustering Part 2(DBScan)

* DB ScanK-Means와 같은 Centroid-based Approach는 특정한 모양을 가지는 데이터에 대해 접근이 쉽지 않았다.이러한 데이터에 대해 이전까지 내용에서 hierarchical clustering, 즉 Agglomerative clustering으로 접근을 했었다.이제 Density-based Clustering을 알아보자. * Density- based Clustering어떤 경우는 cluster 들은 임의의 모양을 가질 수 있고, 이들이 noise처리가 되면 안된다.우리는 그러한 cluster들을 찾기 위해 DB scan이라는 방법을 사용할 수 있다.(noise-resistant density-based clustering)이 방법은 다음 2가지 원칙을 적용한다.1. noise..

개인 공부 2024.04.27

데이터 과학 - 11. Clustering

* Clustering이란 인식된 object들을 구분하는 방법이다. 구분을 하되 따로 label을 매기거나 class를 정의하지는 않는다.(unsupervised learning이므로 y-val이 없다.) 즉, 데이터들을 기반으로 패턴을 발견하여 Similarity에 기반해 grouping을 하는 것이다. Unsupervised Learning problem의 예시로는 Clustering과 Dimensionality Reduction이 있다. * Clustering은 데이터 요약, 압축, KNN Finding, Outlier Detection 등 preprocessing의 도구로 사용될 수 있다.=> 그렇다면, 무엇이 좋은 Clustering일까?=> good clustering method는 high..

개인 공부 2024.04.25

데이터 과학 - 10. Association Rule Mining

universal set U가 있다고 가정하자. 이 U의 subset들을 itemset I라고 정의하고, |I| = k일 시, k-Itemset이라고 부를 수 있다고 하자. 이 때 Association Rule Mining에서 관심이 있는 ItemSet들의 집합을 S라고 하자. S의 각 itemset들을 Transaction T라고 정의하면 결론적으로 itemset I의 Support는 다음과 같이 정의된다. 즉, support(I)는 전체 Transaction에서 특정 Itemset들이 얼마나 포함되는 지를 의미한다. => I = {beer, bread}일 때 suppprt(I)는 Transaction들에서 1.4.5.6이 해당되므로 4이다. 이 때, association rule R은 I1->I2와 ..

개인 공부 2024.04.24