개인 공부

데이터 과학 - 1. Introduction to Data Science

Beige00 2024. 4. 2. 17:35

평소에도 관심이 많았고, 앞으로 내가 할 연구들에도 중요한 가치를 지닌 지식이 될 것 같아 이번 학기에 데이터 과학을 듣게 되었다. 

경험상 무언가 학습을 시작하기 전에 "왜 이 과목을 배우고 이 과목은 무엇인가."를 알아야 더 이해가 잘되는 것 같아서 Data Science에 관해 알아보고 시작을 하려고 한다.


 

* 무엇이 Data Science일까?

=> Facts, insights, meanings...에 기반하여 어떻게 데이터를 "이해"할 것인지를 다루는 것.

(Data Engineering은 어떻게 데이터를 효율, 효과적이게 처리할 것이냐.)

 

* Data Science는 기능적으로 사람 중심의 분야이며, data를 기반해 사람의 decision-making을 돕는 기능을 한다.

결국 data를 분석해주는 tool 들은 방대한 data들의 분포와 같은 경향성을 제시해주는 것일 뿐이다.

"사람"이 결국 해당 데이터들의 방향성을 보고 판단을 해주어야 한다는 말이다.

 

* Data Science Lifecycle

Data Science Workflow의 시작은 2가지가 가능하다.

 

1.Ask a question : 문제 상황을 정의한다. (무엇을 알고 싶나? 무엇을 해결하고자 하나?)

2.Obtain data : 어떠한 데이터가 있고, 어떤 데이터가 필요한가를 분석.(Data Acquisition and Cleaning)

3.Understand the data : 데이터를 시각화 하고, 의미를 분석.(Exploratory Data Analysis & Visualization)

4.Understand the world : 데이터의 결과로 앞으로 어떻게 진행이 될지 예측.(Prediction and Inference)

 

Data Science의 트랜드

1. Automated Data Science : 비즈니스에 어떻게 가치있는 영향을 자동화된 방법으로 제공할까.

2. In-memory computing : RAM에서 데이터 베이스를 처리. 속도가 빨라질 여지가 있다.

3. Data as a Service : 클라우드 컴퓨팅 기반으로 데이터 관련 서비스를 제공하는 개념. 데이터 자체를 제품

                                  이나 서비스처럼 다루는 것이다. 

4. Augmented Analytices : 기계 학습과 AI를 활용하여 데이터 분석 과정을 강화. 분석 자체를 자동화하는 것이다.

                                          데이터 전처리, 분석, 결과 해석 과정에서 필요한 복잡한 과정을 자동화함으로써 누구나

                                          데이터 분석을 할 수 있다.

5. Edge Computing : 엣지로부터 만들어진 데이터를 중앙에서 처리하는 것이 아니라 엣지에서 분석하는 것이다. 

 

- 다룰 줄 알아야하는 Tool : JupyterLab, NumPy, SciPy, Pandas, Keras등 Deep Learning Framework