데이터과학 6

데이터 과학 - 12. Clustering Part 2(DBScan)

* DB ScanK-Means와 같은 Centroid-based Approach는 특정한 모양을 가지는 데이터에 대해 접근이 쉽지 않았다.이러한 데이터에 대해 이전까지 내용에서 hierarchical clustering, 즉 Agglomerative clustering으로 접근을 했었다.이제 Density-based Clustering을 알아보자. * Density- based Clustering어떤 경우는 cluster 들은 임의의 모양을 가질 수 있고, 이들이 noise처리가 되면 안된다.우리는 그러한 cluster들을 찾기 위해 DB scan이라는 방법을 사용할 수 있다.(noise-resistant density-based clustering)이 방법은 다음 2가지 원칙을 적용한다.1. noise..

개인 공부 2024.04.27

데이터 과학 - 11. Clustering

* Clustering이란 인식된 object들을 구분하는 방법이다. 구분을 하되 따로 label을 매기거나 class를 정의하지는 않는다.(unsupervised learning이므로 y-val이 없다.) 즉, 데이터들을 기반으로 패턴을 발견하여 Similarity에 기반해 grouping을 하는 것이다. Unsupervised Learning problem의 예시로는 Clustering과 Dimensionality Reduction이 있다. * Clustering은 데이터 요약, 압축, KNN Finding, Outlier Detection 등 preprocessing의 도구로 사용될 수 있다.=> 그렇다면, 무엇이 좋은 Clustering일까?=> good clustering method는 high..

개인 공부 2024.04.25

데이터 과학 - 7. Visualization Theory

* Visualization Theory Visualization의 목적을 다시 짚어보자. 1. data에 대한 이해를 도움. 2. 결과를 다른 사람에게 설명하는데 도움이 됨. - Linearization 이러한 Scatter plot의 경우는 데이터 분포가 편향되어 있어 해석하기 어렵고, x,y 변수간의 명확한 관계를 설명하기 어렵다. 변환을 조금 하여서 다음의 사진 같이 만들어보면 어떨까? x,y가 linear한 분포를 띄도록 데이터를 재스케일링 해보는 것이다.그렇다면 기울기와 절편 등을 사용하여 관계 해석이 보다 쉬워질 것이다. 그럼 일단 변환을 해보자. 이 그림을 non-linear의 형태를 띄게 만드는 원인은 무엇일까? 1. 몇개의 아주 큰 X 값을 가지는 Outlier 들이 가로 축 scale..

개인 공부 2024.04.10

데이터 과학 - 6. Data Understanding & Visualization

* Data Understanding => 데이터가 모델링을 위해 충분한 quality를 갖추고 있는가는 다음의 3가지로 따진다. - Completeness : 모인 데이터의 size를 측정한다. - Noisiness : Scatter plot을 그려 경향성이 있는지 확인 가능하다. - Consistency : Mean, Variance를 그려 확인할 수 있다. 어떤 모델이 사용되어야하는지 판단은 plot을 그리거나 상관계수를 측정하여 결정할 수 있고, 데이터가 project target에 관련 있는지는 Visualization, modeling하기에 충분한지는 Data size를 측정함으로 알 수 있다. 우선 데이터를 사용하기 전에 데이터의 특성에 대한 이해를 하는 것은 매우 중요하다. 데이터의 특성이..

개인 공부 2024.04.09

데이터 과학 - 3.Data Science Methodology Part 2.

* TDSP (Team Data Science Process) Agile principles : 소프트웨어 개발을 위한 가이드라인을 제공. 변화하는 요구사항에 빠르고 유연하게 대응할 수 있도록 하는 것을 목적. 1. 프로세스 및 도구를 통한 개인 및 상호 작용. 2. 문서화를 통한 소프트웨어 작업 3. 계약 협상에 대한 고객과의 협업 4. 계획이 변경될 경우 즉시 대응 => TDSP란? : 1. Agile 원칙을 적용하여 데이터 과학 솔루션을 효율적으로 제공하는 방법론. 2. TDSP의 backbone은 Data Science LifeCycle이라는 개념이다. * TDSP Lifecycle Steps 1. 비즈니스 이해 -> 2. 데이터 습득 및 이해 -> 3. 모델링 -> 4. 배포 -> 5. 고객 동..

개인 공부 2024.04.03

데이터 과학 - 2. Data Science Methodology Part 1.

* Methodology란 무엇일까? => project를 진행할 때 phase/step들의 나열. * Methodology를 왜 따라야할까? => 실수를 피하기 위해. * Methodology의 종류 : KDD, TDSP, CRISP-DM, OSEMN... * CRISP-DM (CRoss Industry Standard Process for Data Mining) - 6페이즈로 구성되어있다. 1. 비즈니스 이해 2. 데이터 이해 3. 데이터 준비 4. 모델링 5. 평가 6. 배포 * 왜 필요할까? : 1. 데이터 마이닝 프로젝트의 경험 기록에 도움이 된다. 2. 프로젝트 계획과 관리에 도움을 준다. 3. 데이터 마이닝에 대한 배경 지식이 적은 사람들도 신뢰할 수 있는 데이터 마이닝 프로세스이다. * 특..

개인 공부 2024.04.02