개인 공부

데이터 과학 - 3.Data Science Methodology Part 2.

Beige00 2024. 4. 3. 15:54

* TDSP (Team Data Science Process)

Agile principles : 소프트웨어 개발을 위한 가이드라인을 제공. 변화하는 요구사항에 빠르고 유연하게 대응할 수 있도록 하는 것을 목적.

1. 프로세스 및 도구를 통한 개인 및 상호 작용.

2. 문서화를 통한 소프트웨어 작업

3. 계약 협상에 대한 고객과의 협업

4. 계획이 변경될 경우 즉시 대응

 

=> TDSP란? : 

1. Agile 원칙을 적용하여 데이터 과학 솔루션을 효율적으로 제공하는 방법론.

2. TDSP의 backbone은 Data Science LifeCycle이라는 개념이다.


* TDSP Lifecycle Steps

1. 비즈니스 이해 -> 2. 데이터 습득 및 이해 -> 3. 모델링 -> 4. 배포 -> 5. 고객 동의

확인해보면 CRISP-DM 과 유사한 과정임을 알 수 있다.

 

1. 비즈니스 이해

목표 : 모델 대상으로 할 주요 변수와 관련 메트릭, 프로젝트 성공 기준 결정.

과정 : 목표 정의 -> 데이터 소스 식별

 

2. 데이터 습득 및 이해

목표 : 대상 변수와의 관계가 파악된 깨끗한 데이터 집합 생성. 데이터를 고치고 점수를 매기는 데이터 파이프라인 솔루션 아키텍처를 개발

과정 : 데이터 수집 -> 데이터를 탐색하여 품질이 적합한지 판별(클리닝, 등 전처리 기술 적용) -> 데이터 파이프라인 설정.

(데이터 파이프라인이란, 데이터를 수집, 변환, 이동시키는 과정을 자동화하는 기술.)

아티팩트

- Data Quality Report : 데이터들의 품질에 관해 정리

- Solution architecture : 모델의 설명서

- Checkpoint Decision : 어느정도가 임계점인지 결정.

 

3. 모델링

목표 : 최저의 데이터 특징에 대한 ML model 정의, 알맞은 모델 개발.

과정 : Feature Engineering(Raw data에서 data feature 추출) - Model Training - Model 결정.

 

4. 배포

목표 : 데이터 파이프라인이 포함된 모델을 배포한다.

과정 : 모델의 운영. Production 혹은 Production과 유사한 환경에 배포한다.

- 최종 솔루션 아키텍처 등의 문서들을 작성한다.

 

5. 고객 동의

목표 : 파이프라인, 모델이 고객의 목표를 충족하는지 확인.

과정 : 시스템 검증(고객 요구 충족 확인) -> 프로젝트 인수인계(시스템을 운영할 주체에게 프로젝트를 넘겨준다.)


* Data Science OSEMN Model

=> OSEMN은 데이터 과학의 단계를 나타내는 단어이다.

1. Obtain 2. Scrub 3. Explore 4. Model 5. iNterpret

 

1. Obtain

- 데이터 수집을 위한 임시 수동 프로세스 이상의 것이 필요하다.(데이터를 어떻게 해야 가져올까?)

 

2. Scrub

- 원시 데이터는 오류나 결측치 등의 에러가 있다. 따라서 원시 데이터를 사용가능한 형식으로 변화해야한다.(전처리)

 

3. Explore

- 수집된 데이터를 히스토그램을 그리든 산점도를 그리든 해서 이해한다. 이 과정에서 어떤 가설의 감정이나 예측을 포함하지 않는다.

 

4. Model

- 입력데이터를 기반으로 출력 값을 예측하는 방법을 잘 설명하는 알고리즘 찾기.

- 비용을 설정하고, 비용 최소화를 포함하여 의도된 모델링 목표를 최상으로 달성하는 모델 선택

 

5. iNterpret

- 청중에게 논리적이고 합리적이며 실행 가능한 프레젠테이션을 통해 결과를 개략적으로 설명해야함.

 

장점 : 

1. Simple : 간단하다

2. Catchy : 명확하다

3. Makes sense : 이해할 수 있는 논리적 흐름이 있다.

4. Provides a shared understanding : OSEMN은 데이터 과학 프로젝트의 진행 방식을 정의하는데 도움이 되는 분류 체계를 만든다.

 

단점 :

1. Misses business understanding :비즈니스의 이해 과정이 CRISP-DM이나 TDSP와 다르게 없다.

2. Doesn't consider deployment : 배포를 고려하지 않는다. 즉, 다수의 대상에게 배포를 하지 않는다.

3. Ignores teamwork : 현대 프로젝트의 광범위한 팀 측면을 무시한다.

4. It's linear :  Waterfall과 같은 단점인데 역 단계로 가기 힘들다.