* TDSP (Team Data Science Process)
Agile principles : 소프트웨어 개발을 위한 가이드라인을 제공. 변화하는 요구사항에 빠르고 유연하게 대응할 수 있도록 하는 것을 목적.
1. 프로세스 및 도구를 통한 개인 및 상호 작용.
2. 문서화를 통한 소프트웨어 작업
3. 계약 협상에 대한 고객과의 협업
4. 계획이 변경될 경우 즉시 대응
=> TDSP란? :
1. Agile 원칙을 적용하여 데이터 과학 솔루션을 효율적으로 제공하는 방법론.
2. TDSP의 backbone은 Data Science LifeCycle이라는 개념이다.
* TDSP Lifecycle Steps
1. 비즈니스 이해 -> 2. 데이터 습득 및 이해 -> 3. 모델링 -> 4. 배포 -> 5. 고객 동의
확인해보면 CRISP-DM 과 유사한 과정임을 알 수 있다.
1. 비즈니스 이해
목표 : 모델 대상으로 할 주요 변수와 관련 메트릭, 프로젝트 성공 기준 결정.
과정 : 목표 정의 -> 데이터 소스 식별
2. 데이터 습득 및 이해
목표 : 대상 변수와의 관계가 파악된 깨끗한 데이터 집합 생성. 데이터를 고치고 점수를 매기는 데이터 파이프라인 솔루션 아키텍처를 개발
과정 : 데이터 수집 -> 데이터를 탐색하여 품질이 적합한지 판별(클리닝, 등 전처리 기술 적용) -> 데이터 파이프라인 설정.
(데이터 파이프라인이란, 데이터를 수집, 변환, 이동시키는 과정을 자동화하는 기술.)
아티팩트
- Data Quality Report : 데이터들의 품질에 관해 정리
- Solution architecture : 모델의 설명서
- Checkpoint Decision : 어느정도가 임계점인지 결정.
3. 모델링
목표 : 최저의 데이터 특징에 대한 ML model 정의, 알맞은 모델 개발.
과정 : Feature Engineering(Raw data에서 data feature 추출) - Model Training - Model 결정.
4. 배포
목표 : 데이터 파이프라인이 포함된 모델을 배포한다.
과정 : 모델의 운영. Production 혹은 Production과 유사한 환경에 배포한다.
- 최종 솔루션 아키텍처 등의 문서들을 작성한다.
5. 고객 동의
목표 : 파이프라인, 모델이 고객의 목표를 충족하는지 확인.
과정 : 시스템 검증(고객 요구 충족 확인) -> 프로젝트 인수인계(시스템을 운영할 주체에게 프로젝트를 넘겨준다.)
* Data Science OSEMN Model
=> OSEMN은 데이터 과학의 단계를 나타내는 단어이다.
1. Obtain 2. Scrub 3. Explore 4. Model 5. iNterpret
1. Obtain
- 데이터 수집을 위한 임시 수동 프로세스 이상의 것이 필요하다.(데이터를 어떻게 해야 가져올까?)
2. Scrub
- 원시 데이터는 오류나 결측치 등의 에러가 있다. 따라서 원시 데이터를 사용가능한 형식으로 변화해야한다.(전처리)
3. Explore
- 수집된 데이터를 히스토그램을 그리든 산점도를 그리든 해서 이해한다. 이 과정에서 어떤 가설의 감정이나 예측을 포함하지 않는다.
4. Model
- 입력데이터를 기반으로 출력 값을 예측하는 방법을 잘 설명하는 알고리즘 찾기.
- 비용을 설정하고, 비용 최소화를 포함하여 의도된 모델링 목표를 최상으로 달성하는 모델 선택
5. iNterpret
- 청중에게 논리적이고 합리적이며 실행 가능한 프레젠테이션을 통해 결과를 개략적으로 설명해야함.
장점 :
1. Simple : 간단하다
2. Catchy : 명확하다
3. Makes sense : 이해할 수 있는 논리적 흐름이 있다.
4. Provides a shared understanding : OSEMN은 데이터 과학 프로젝트의 진행 방식을 정의하는데 도움이 되는 분류 체계를 만든다.
단점 :
1. Misses business understanding :비즈니스의 이해 과정이 CRISP-DM이나 TDSP와 다르게 없다.
2. Doesn't consider deployment : 배포를 고려하지 않는다. 즉, 다수의 대상에게 배포를 하지 않는다.
3. Ignores teamwork : 현대 프로젝트의 광범위한 팀 측면을 무시한다.
4. It's linear : Waterfall과 같은 단점인데 역 단계로 가기 힘들다.
'개인 공부' 카테고리의 다른 글
데이터 과학 - 4. Data Mining/Science Algorithms (0) | 2024.04.08 |
---|---|
확률 및 통계 - 5. Joint density and Cumulative Distribution Func. (0) | 2024.04.07 |
HCI - Needfinding (0) | 2024.04.02 |
데이터 과학 - 2. Data Science Methodology Part 1. (0) | 2024.04.02 |
데이터 과학 - 1. Introduction to Data Science (0) | 2024.04.02 |