전체 글 93

확률과 통계 8. Law of Large Number

* Law of Large Numbers for Discrete Random Variable * Markov's inequalityX가 P(X>=0) = 1인 r.v.일 때, 모든 t>0에 대해, P(X>=t) 더보기닫기증명) * Chebyshev InequalityX = discrete random variable with expected value  µ=E(X), and let ε>0 be any positive real number.더보기닫기증명)더보기닫기ex)E(X) =  µ, V(X) = σ^2 인 r.v. X에 대해 ε=kσ (k>0) 이라고 잡고 Chebyshev Inequality를 적용하면,이와 같이 정리가 된다.따라서 임의의 constant를 잡을 때, bound 값을 σ와 무관한 값으..

개인 공부 2024.05.07

확률 및 통계 - 7. Sums of Independent Random Variables

* Sums of Discrete Random Variable- ConvolutionX,Y : two independent discrete R.V. with distribution functions m(x) and m(y) (Ω : Integer)r.v. Z = X+Y.이 때, Z의 distribution은 X=k 라고 두고 m(z) = P(Z=z) = sum(P(X=k)P(Y=z-k)) {X=0~k} 로 구할 수 있다. 따라서 X,Y가 2개의 independent discrete r.v.s 이며 m1(x), m2(y)를 가진다고 하였을 때, m1(x), m2(y)의 convolution인 distribution function m3(z) = m1(x)*m2(y)는 다음과 같이 정의된다. 같은 식으로 접..

개인 공부 2024.05.07

DREAM: Dynamic Resource and Task Allocation for Energy Minimization in Mobile Cloud Systems - 2

* DREAM: Dynamic Resource and Task Allocation for Energy Minimization in Mobile Cloud SystemsJeongho Kwak, Member, IEEE, Yeongjin Kim, Student Member, IEEE, Joohyun Lee, Member, IEEE,and Song Chong, Member, IEEE를 읽고 작성된 글입니다.4. Trace and Dataset Driven SimulationA. Measurement, Traces and DatasetsCPU, network energy 모델의 현실적인 parameter를 얻기 위해 4대의 스마트폰을 활용하였다고 한다.(LTE, 3G)다양한 clock speed의 CPU아 3G,..

논문 2024.05.02

DREAM: Dynamic Resource and Task Allocation forEnergy Minimization in Mobile Cloud Systems - 1

* DREAM: Dynamic Resource and Task Allocation for Energy Minimization in Mobile Cloud Systems Jeongho Kwak, Member, IEEE, Yeongjin Kim, Student Member, IEEE, Joohyun Lee, Member, IEEE, and Song Chong, Member, IEEE를 읽고 작성된 글입니다.0. Abstract최근에는 Edge computing 등 다양한 기술이 모바일 단에서 이루어지기 때문에 모바일 장치들의 에너지 소비가 급증하는 추세이다. 하여 이에 대한 대안들이 많이 제시되어왔는데, 그 예시로는 "Mobile cloud offloading"이 있다.Mobile cloud offloadi..

논문 2024.05.02

데이터 과학 - 12. Clustering Part 2(DBScan)

* DB ScanK-Means와 같은 Centroid-based Approach는 특정한 모양을 가지는 데이터에 대해 접근이 쉽지 않았다.이러한 데이터에 대해 이전까지 내용에서 hierarchical clustering, 즉 Agglomerative clustering으로 접근을 했었다.이제 Density-based Clustering을 알아보자. * Density- based Clustering어떤 경우는 cluster 들은 임의의 모양을 가질 수 있고, 이들이 noise처리가 되면 안된다.우리는 그러한 cluster들을 찾기 위해 DB scan이라는 방법을 사용할 수 있다.(noise-resistant density-based clustering)이 방법은 다음 2가지 원칙을 적용한다.1. noise..

개인 공부 2024.04.27

데이터 과학 - 11. Clustering

* Clustering이란 인식된 object들을 구분하는 방법이다. 구분을 하되 따로 label을 매기거나 class를 정의하지는 않는다.(unsupervised learning이므로 y-val이 없다.) 즉, 데이터들을 기반으로 패턴을 발견하여 Similarity에 기반해 grouping을 하는 것이다. Unsupervised Learning problem의 예시로는 Clustering과 Dimensionality Reduction이 있다. * Clustering은 데이터 요약, 압축, KNN Finding, Outlier Detection 등 preprocessing의 도구로 사용될 수 있다.=> 그렇다면, 무엇이 좋은 Clustering일까?=> good clustering method는 high..

개인 공부 2024.04.25

데이터 과학 - 10. Association Rule Mining

universal set U가 있다고 가정하자. 이 U의 subset들을 itemset I라고 정의하고, |I| = k일 시, k-Itemset이라고 부를 수 있다고 하자. 이 때 Association Rule Mining에서 관심이 있는 ItemSet들의 집합을 S라고 하자. S의 각 itemset들을 Transaction T라고 정의하면 결론적으로 itemset I의 Support는 다음과 같이 정의된다. 즉, support(I)는 전체 Transaction에서 특정 Itemset들이 얼마나 포함되는 지를 의미한다. => I = {beer, bread}일 때 suppprt(I)는 Transaction들에서 1.4.5.6이 해당되므로 4이다. 이 때, association rule R은 I1->I2와 ..

개인 공부 2024.04.24

데이터 과학 - 9. Statistical Data Analysis PART 2

* Inferential Statistics? => 통계적 추론은 우리가 수집한 모집단에서 Sample을 추출해서 진행하는 통계적 데이터 분석 방법이다. 해당 추정 방법에는 Point Estimation, Interval Estimation 방법이 있다. 1. Point Estimate => 특정 값을 추정하여 모집단의 parameter를 추정. 2. Interval Estimate => 구간을 사용하여 모집단의 patameter를 그리는 방법. 특정 Point를 정의하고 그 Point에서 +-를 하는 방식으로 신뢰 구간을 정하는 것이 일반적이다. * Biased/Unbiased Estimator -> 이렇게 해서 추정된 estimator θ'가 E(θ') = θ일 시, Unbiased Estimator..

개인 공부 2024.04.21

데이터 과학 - 9. Statistical Data Analysis PART 1

* Descriptive Statistics => 주어진 데이터를 잘 요약하는 방법. data를 의미있게 요약한다.(주어진 데이터의 정규분포 여부 등) (여기서 Data는 Numerical, Categorical를 생각한다.) - Distribution => 특정 Range로 나누어 data들의 frequency로 나타낸 것.(Data visualization과 Data reduction에서 다루었다.) => Distribution을 묘사하는 방법은 Visualization으로 하는 방법과 Numerical 적인 수치로 묘사하는 방법이 있다. 물론 이 방법 중 하나를 골라쓰는 것이 아니라 둘다 사용해야 객관적인 묘사가 가능하다. (Histogram을 그리면서 mean, S.D. 와 같은 수치도 묘사한다...

개인 공부 2024.04.19

데이터 과학 - 8. Data Preprocessing Part 2

* Data Reduction => data가 크면 분석하는데 cost가 높아진다. 따라서 데이터의 크기를 줄이는 과정이 필요하다. Data Reduction의 전력으로는 차원 축소, 수치 축소, 데이터 압축이 있다. * Curse of dimensionality : 데이터의 차원이 크면 data들은 점점 넓게 퍼지게 되고, 점 간의 밀도와 거리는 clustering, outlier 분석에 중요하므로 이는 좋지 않다. => Dimensionality reduction : irrelevant feature와 noise 제거의 도움이 된다 또한 data mining의 소요 cost를 줄이고 visualization을 쉽게 해준다. * Dimensionality reduction 1. Fourier trans..

개인 공부 2024.04.18