개인 공부 39

데이터 과학 - 4. Data Mining/Science Algorithms

* Classification - 주어진 Data (Training set) : 각 데이터들은 attribute들의 집합이다. 그리고 각 Attribute들은 class이다. - class attribute에 대한 Model을 찾는다. => 목표 : 새로 주어진 데이터의 class를 정확히 할당해주어야 한다. (Classification) - Process - Classification 에서 Error의 원인 1. 불충분한 training data 2. 너무 적은 feature 3. 너무 많거나 설명력이 떨어지는 feature (ex: 여자,남자를 classification하는데 오늘의 날씨.) 4. Overfitting => 해결법 : Introducing new feature - Classificat..

개인 공부 2024.04.08

데이터 과학 - 3.Data Science Methodology Part 2.

* TDSP (Team Data Science Process) Agile principles : 소프트웨어 개발을 위한 가이드라인을 제공. 변화하는 요구사항에 빠르고 유연하게 대응할 수 있도록 하는 것을 목적. 1. 프로세스 및 도구를 통한 개인 및 상호 작용. 2. 문서화를 통한 소프트웨어 작업 3. 계약 협상에 대한 고객과의 협업 4. 계획이 변경될 경우 즉시 대응 => TDSP란? : 1. Agile 원칙을 적용하여 데이터 과학 솔루션을 효율적으로 제공하는 방법론. 2. TDSP의 backbone은 Data Science LifeCycle이라는 개념이다. * TDSP Lifecycle Steps 1. 비즈니스 이해 -> 2. 데이터 습득 및 이해 -> 3. 모델링 -> 4. 배포 -> 5. 고객 동..

개인 공부 2024.04.03

HCI - Needfinding

? UI, UX, CX, SD 란? => "UI" : User Interface, "UX" : User Experience, "CX" : Customer Experience, "SD" : Service Design * UI : 제품의 시각적인 부분. user들에게 product를 더 매력적이게 어필할 수 있다. UI는 제품의 첫 인상을 담당하는 부분이다. 만일 UI가 좋지 않다면, 진입장벽이 크게 형성될 수 있다. ex) 김밥의 포장 * UX: 사용자가 제품이나 서비스를 실제로 사용할 때 어떻게 느끼고 무엇을 생각하는지를 의미한다. ex) 김밥을 먹는 과정에서 느낀 맛, 크기 등 * CX: 제품 또는 서비스의 전반적인 인상. CX는 고객이 특정 서비스나 제품을 고르거나 고르지 않은 "이유"이다. ex) ..

개인 공부 2024.04.02

데이터 과학 - 2. Data Science Methodology Part 1.

* Methodology란 무엇일까? => project를 진행할 때 phase/step들의 나열. * Methodology를 왜 따라야할까? => 실수를 피하기 위해. * Methodology의 종류 : KDD, TDSP, CRISP-DM, OSEMN... * CRISP-DM (CRoss Industry Standard Process for Data Mining) - 6페이즈로 구성되어있다. 1. 비즈니스 이해 2. 데이터 이해 3. 데이터 준비 4. 모델링 5. 평가 6. 배포 * 왜 필요할까? : 1. 데이터 마이닝 프로젝트의 경험 기록에 도움이 된다. 2. 프로젝트 계획과 관리에 도움을 준다. 3. 데이터 마이닝에 대한 배경 지식이 적은 사람들도 신뢰할 수 있는 데이터 마이닝 프로세스이다. * 특..

개인 공부 2024.04.02

데이터 과학 - 1. Introduction to Data Science

평소에도 관심이 많았고, 앞으로 내가 할 연구들에도 중요한 가치를 지닌 지식이 될 것 같아 이번 학기에 데이터 과학을 듣게 되었다. 경험상 무언가 학습을 시작하기 전에 "왜 이 과목을 배우고 이 과목은 무엇인가."를 알아야 더 이해가 잘되는 것 같아서 Data Science에 관해 알아보고 시작을 하려고 한다. * 무엇이 Data Science일까? => Facts, insights, meanings...에 기반하여 어떻게 데이터를 "이해"할 것인지를 다루는 것. (Data Engineering은 어떻게 데이터를 효율, 효과적이게 처리할 것이냐.) * Data Science는 기능적으로 사람 중심의 분야이며, data를 기반해 사람의 decision-making을 돕는 기능을 한다. 결국 data를 분석..

개인 공부 2024.04.02

데이터 과학 - 기상청 최고 기온, 최저 기온 데이터 크롤링하기

!pip install mechanize import mechanize import http.cookiejar cj = http.cookiejar.CookieJar() br = mechanize.Browser() br.set_cookiejar(cj) br.open("https://www.weather.go.kr/w/obs-climate/land/past-obs/obs-by-day.do") data = br.response().read().decode('utf-8') import time import re a = 0 data_points = [] for i in range(1, 120): for j in range(1, 13): url = "https://www.weather.go.kr/w/obs-clim..

개인 공부 2024.04.01

확률 및 통계 - 4. Conditional Probability

* Discrete Conditional Probability - 어떤 Sample Space 상에서 Event E가 이미 일어난 뒤라고 가정해보자. 그렇다면 해당 사실이 다른 Event F에 영향을 미칠까? 미친다면 얼마나 미칠까. 이를 계산해보자. Def) P(F|E) = E가 일어난 공간에서의 F가 일어날 확률. 더보기 Ex) 주사위를 굴리자. Experiment : 주사위를 굴림 X : r.v(out come) E : event {E | X>4} F : event {E | X=6} => P(F|E)는 이미 E가 일어난 시점을 가정하므로 Sample space가 { 5, 6 } 으로 정의된다. 이 Sample Space에서 P(F)는 1/2이다. 따라서 P(F|E) = 1/2 * 위의 구하는 과정을..

개인 공부 2024.03.31

확률 및 통계 - 3. Permutations & Combinations

Def 3.1. n개의 서로 다른 요소로부터 만들 수 있는 모든 순서화된 목록의 수는 n*(n-1)*(n-2)*...*1 로 계산이 가능하다. 이를 n! 이라고 하자. (Factorial) 단 0!=1 이다. 더보기 증명) 1...n 개의 숫자열이 있다고 할 때, 1을 배치할 때는 n 개의 경우의 수 2를 배치할 때는 n-1 개의 경우의 수 3을 배치할 때는 n-2 개의 경우의 수... n을 배치할 때는 n-n+1 개의 경우의 수가 있다. => n*(n-1)*(n-2)*...*(1) Def 3.2. A : n 개의 element set, K는 0~n까지로 정의된 정수 sample space의 element 일 시, ( A: n-element set, K ∈ [n] ) A의 k 순열은 A의 크기가 k인 부..

개인 공부 2024.03.27