개인 공부

데이터 과학 - 2. Data Science Methodology Part 1.

Beige00 2024. 4. 2. 19:47

* Methodology란 무엇일까?

=> project를 진행할 때 phase/step들의 나열.

 

* Methodology를 왜 따라야할까?

=> 실수를 피하기 위해.

 

* Methodology의 종류 : KDD, TDSP, CRISP-DM, OSEMN...


 

* CRISP-DM (CRoss Industry Standard Process for Data Mining)

- 6페이즈로 구성되어있다.

 

1. 비즈니스 이해

2. 데이터 이해

3. 데이터 준비

4. 모델링

5. 평가

6. 배포

 

* 왜 필요할까? : 

1. 데이터 마이닝 프로젝트의 경험 기록에 도움이 된다.

2. 프로젝트 계획과 관리에 도움을 준다.

3. 데이터 마이닝에 대한 배경 지식이 적은 사람들도 신뢰할 수 있는 데이터 마이닝 프로세스이다.

 

* 특징

- 누구나 사용 가능 (비독점적)

- 어떤 분야에 국한되지 않음.

- 어떤 Tool에 의존하지 않음. (호환성 높음)

- 비즈니스 문제에 초점을 맞춤.(비즈니스 이해하고 시작)

- 기술적 분석이 포함됨.

- 가이드 라인을 위한 프레임워크임.

- 6단계의 순서는 엄격하지 않으며 유동적으로 단계를 바꿀 수 있음.

 

1. 비즈니스 이해

- 프로젝트의 목표와 요구 사항을 이해.

- 데이터 마이닝 문제 정의

! Tasks : 1. 비즈니스 목표 정의.

              2. Assess situation : 자원 가용성 파악, 프로젝트 요구 사항을 평가해 리스크 평가, 방책 마련. 비용 대비 효과 분석

                                               수행

              3. 데이터 마이닝 관점에서의 성공을 정의

              4. 각 프로젝트 단계에 대한 상세 계획 수립.

 

2. 데이터 이해

! Tasks : 1. 초기 데이터 수집

              2. 데이터 설명 : 각 데이터 셋의 형식 등

              3. 데이터 탐색 

              4. 데이터 퀄리티 확인 : 데이터 누락 등 확인

 

3. 데이터 준비

! Tasks : 1. 데이터 선택

              2. 데이터 정리 : 데이터의 에러 값 등을 정리

              3. 데이터 구성 : 기존 데이터를 변환 또는 가공

              4. Integrate data : 여러 소스 데이터 결합

              5. Format data : 만약 특정 데이터 형식이 필요하다면 형식을 다시 지정. (ex : 문자열 -> 숫자열)

 

4. 모델링

! Tasks : 1. 모델링 기술 선택

              2. test design 생성 : 데이터를 train, test set으로 분할하는 과정.

              3. 모델 실행

              4. 평가.

 

5. 평가

! Tasks : 1. Evaluate Result : 결과가 비즈니스 성공 기준을 넘었는지 확인

              2. Review process : 완성된 작업, 실행된 프로세스 검토.

              3. 이전 단계에 기반하여 배치할지, 재반복할지, 새 프로젝트를 시작할지 결정.

 

6. 배포

! Tasks : 1. 모델 배포 계획 개발, 문서화

              2. 모니터링 및 유지 보수 계획 수립

              3. 최종 보고서 작성 : 데이터 마이닝 결과 요약

              4. Review Project

 

* CRISP-DM의 장점

1.  workflow는 일반화 가능하며 프로젝트 활동에 대한 강력하고 명확한 지침 제공.

2. 프로젝트 단계를 반복함으로써 개선의 여지 있음

3. workflow는 누구나 쉽게 수행할 수 있다.

4. 적절한 비즈니스 이해로 시작하면 프로젝트 실행을 더 잘 관리 가능하다.

5. workflow 구현은 유연하게 이루어질 수 있다.

 

* CRISP-DM의 단점

1. Waterfall 프로세스와 동일한 결함이 있어 빠른 반복이 어렵다.

2. 프로젝트의 개별 단계마다 문서 작업량이 많아 진행 속도가 느리다.

3. 너무 오래된 접근법이다. 또한 팀간 의사 소통의 복잡성을 고려하지 않은 소규모 팀에만 국한한 방법이다.

4. 3.의 문제와도 관련있는데, 결국 big data project의 관리가 어렵다.

 

- 요약

비즈니스 이해(목표 수립) - 데이터 이해 (수집 및 평가) - 데이터 준비(가공) - 모델링(분석) - 평가 - 배포 의 과정으로 진행되는 방법론이다.

반복적인 접근법을 강조하며 각 단계에서 얻은 경험과 피드백은 지속적인 개선에 도움이 된다.

또한 전문가가 아니어도 시도할 수 있는 방법이고, 특정 도구나 분야 같은 것에 의존하지 않는다.

따라서 일반화 가능하며 유연한 특성이 있다.

그러나, big data project, 대규모 팀 프로젝트에 적용이 어렵고 각 단계마다 문서 작업량이 많아 진행이 느리다.


* KDD (Knowledge Discovery in Databases)

- 데이터 베이스에서 유용한 정보를 찾아내는 과정. 대량의 데이터 안에서 패턴을 발견하고 이를 의미 있는 정보로 전환하는 과정 포괄.

즉, KDD의 목표는 대규모 데이터베이스의 맥락에서 무언가의 지식을 찾아내는 것이다.

KDD의 과정은 다음과 같다.

 

1. Selection : 분석할 데이터를 저장소에서 선택

2. Preprocessing : 데이터를 정제하고 품질을 개선.(노이즈 제거, 결측치 처리, 데이터 정규화 등을 포함할 수 있음.)

3. Transformation : 분석에 적합하도록 데이터를 줄이거나 변환한다. (차원 축소 등)

4. Data Mining : Data mining task와 알고리즘을 결정한다. 이 후 데이터로부터 패턴이나 모델을 추출한다.

(목표가 Classification인지 Regression인지 등이 고려될 수 있으며, 어떤 모델을 선택할지 등이 포함된다.)

5. Evaluation : 데이터 마이닝 과정에서 발견된 패턴이나 지식을 평가한다.(추출된 모델 평가)

6. Knowledge : 발견된 지식을 사용자가 이해할 수 있는 형태로 변환.(시각화 도구 등)

더보기

* 모델을 추출한다?

=> 주어진 데이터 세트에서 유의미한 패턴, 관계, 구조를 수학적이고 통계적인 형태로 변환하는 과정을 의미한다.

- 결국 데이터 안에 숨어있는 규칙이나 패턴을 찾아 이를 명확하게 정의한 수학적 표현을 개발한다는 의미이다.

KDD의 단점:

- 오래된 방법론이라 많은 현실을 다루지 못한다.

- 지속적으로 증가하는 방대한 데이터를 다루려면 초기 비용이 필요하다.

- 수많은 데이터에서 패턴을 찾는데 엄청난 시간이 걸릴 수 있다.

- CRISP-DM 과 공유하는 단점인데, Waterfall 프로세스처럼 경직되고 느리게 진행되는 단점이 있을 수 있다.

 

-요약

KDD는 데이터 베이스에서 vaild, novel, useful, understandable patterns, data 한 패턴을 찾아내는 process이다.

Data : 사실의 집합

Pattern : 패턴은 언어를 사용하여 Data의 부분 집합 e에 대한 표현이다.

Process : KDD는 데이터 준비, 패턴 검색, 지식 평가, 수정 후 반복 등 여러 단계를 포함하는 복잡한 과정이다.

Vaild : 발견된 패턴은 어느 정도의 확실성을 가지고 새로운 데이터에 대해 참이어야한다.

Novel : 패턴은 새로워야한다.

Useful : 실행 가능해야하며, 유용한 결과를 내야한다.

Understanable : 이 과정은 인간이 패턴을 이해할 수 있는 형태로 만들어야한다.