개인 공부 39

데이터 과학 - 9. Statistical Data Analysis PART 1

* Descriptive Statistics => 주어진 데이터를 잘 요약하는 방법. data를 의미있게 요약한다.(주어진 데이터의 정규분포 여부 등) (여기서 Data는 Numerical, Categorical를 생각한다.) - Distribution => 특정 Range로 나누어 data들의 frequency로 나타낸 것.(Data visualization과 Data reduction에서 다루었다.) => Distribution을 묘사하는 방법은 Visualization으로 하는 방법과 Numerical 적인 수치로 묘사하는 방법이 있다. 물론 이 방법 중 하나를 골라쓰는 것이 아니라 둘다 사용해야 객관적인 묘사가 가능하다. (Histogram을 그리면서 mean, S.D. 와 같은 수치도 묘사한다...

개인 공부 2024.04.19

데이터 과학 - 8. Data Preprocessing Part 2

* Data Reduction => data가 크면 분석하는데 cost가 높아진다. 따라서 데이터의 크기를 줄이는 과정이 필요하다. Data Reduction의 전력으로는 차원 축소, 수치 축소, 데이터 압축이 있다. * Curse of dimensionality : 데이터의 차원이 크면 data들은 점점 넓게 퍼지게 되고, 점 간의 밀도와 거리는 clustering, outlier 분석에 중요하므로 이는 좋지 않다. => Dimensionality reduction : irrelevant feature와 noise 제거의 도움이 된다 또한 data mining의 소요 cost를 줄이고 visualization을 쉽게 해준다. * Dimensionality reduction 1. Fourier trans..

개인 공부 2024.04.18

HCI - Safety

* Prevent Human Error => 사람은 항상 실수를 한다. 따라서 실수를 제거하는 것은 매우 어려운 일이다. 그러나, 어떤 시점에서 어떤 실수가 주로 일어나는지 예측하여 그 부분을 예방하는 정도는 할 수 있는 범위의 작업이다. * Error Types => 사람의 행위는 크게 의도한 행위와 의도하지 않은 행위로 나뉜다. 또한 의도하지 않은 행위는 "실수"로 분별된다. 저번 포스팅의 MHP를 생각해보면, Slip은 Perceptual processor, Cognitive Processor에서는 정상적으로 처리가 되었으나, Motor Processor에서 오류가 발생한 것이고, Lapse는 Memory와 Perceptual Processor, Cognitive Processor의 상호작용 과정에..

개인 공부 2024.04.16

HCI - Efficiency

-> 어떻게 해야 인터페이스를 효율적으로 만들어 UX를 향상시킬 수 있을까? * Chunking - Chunk : 기억이나 인지의 한 단위. (알고 있는 정보를 묶어서 한 단위로 기억하는 것) * Working memory (RAM과 비슷) - 의식적인 사고를 하는 영역. 3~5 Chunk 단위로 구성되어있다. - 최대 10초 정도 유지된다. - 기억을 오래하려면 반복적으로 Working memory에 올려야한다. (컴퓨터 메모리의 캐싱 작업과 비슷하게 동작) => 그러나 반복적으로 Working memory에 올린다는 뜻은 오랜 집중이 필요한 작업이다.(Cost가 높다.) => 따라서, 좋은 learnability란 최대한 새로운 기억을 만들지 않아도 되게 기존 기억과 연결을 많이 만들어주는 것이다. ..

개인 공부 2024.04.16

데이터 과학 - 8. Data Preprocessing(1)

왜 우리는 데이터 전처리를 해야할까? => real world의 데이터는 많은 오염이 되어있기 때문이다. - Incomplete : attribute value들의 종류 부족, 중요한 attribute의 부족, aggregate 데이터만 있는 경우. - Noisy : 오류 또는 outlier들의 다수 포함. - Inconsistent : 데이터 자체가 불일치성을 포함하고 있음.(ex: 성적을 집계하는데 어떤 데이터는 100점, 어떤 데이터는 A) 이러한 오염된 데이터는 데이터 마이닝의 결과에 심한 영향을 준다. 오염된 데이터가 판단의 결과에 영향을 준다는 것이다. * 데이터 오염도를 측정하는 measure들 : - multi-dimensional view : accuracy, completeness, c..

개인 공부 2024.04.14

HCI - Learnability

저번 글에서 UI에 대해 학습했다. 그러면 우리가 UI를 만들고 유저에게 어떻게 사용을 하게 해야할까? 단적으로, UI를 어떻게 사용해야하는지 수업을 시켜야할까? (Excel 처럼) 자세한 매뉴얼을 제공할까? 뭘 생각하든 일단 UI를 사용하기 위해서 무언가 도움말이나 확인해야한단 점은 확실한 마이너스 요소이다. 단적으로 나의 경험을 생각해보면, 하다못해 게임을 할 때도 초기 설명을 다 스킵하고 시작부터 하는 편이다. 무언가 User가 "사용"한단 것은 결국 Goal이 있기 때문이다. 다시 말하면 어떤 소프트웨어를 사용하던 결국 무언가 얻기 위해 사용한다는 것이다. (ex: 게임 - 재미, 포토샵 - 편집된 사진) User는 이 목표를 이루기 위해 interface를 탐색하게 된다. 이 과정 중, 문제가 ..

개인 공부 2024.04.10

데이터 과학 - 7. Visualization Theory

* Visualization Theory Visualization의 목적을 다시 짚어보자. 1. data에 대한 이해를 도움. 2. 결과를 다른 사람에게 설명하는데 도움이 됨. - Linearization 이러한 Scatter plot의 경우는 데이터 분포가 편향되어 있어 해석하기 어렵고, x,y 변수간의 명확한 관계를 설명하기 어렵다. 변환을 조금 하여서 다음의 사진 같이 만들어보면 어떨까? x,y가 linear한 분포를 띄도록 데이터를 재스케일링 해보는 것이다.그렇다면 기울기와 절편 등을 사용하여 관계 해석이 보다 쉬워질 것이다. 그럼 일단 변환을 해보자. 이 그림을 non-linear의 형태를 띄게 만드는 원인은 무엇일까? 1. 몇개의 아주 큰 X 값을 가지는 Outlier 들이 가로 축 scale..

개인 공부 2024.04.10

확률 및 통계 - 6. Expected Values and Variance

- Discrete R.V.에서 Expected Value (Expected Value는 개별적인 확률 변수의 값들을 나타내는 것이 아니라 그 확률 변수들이 나타내는 전체 분포의 특성을 요약해서 나타내는 요약이다.) Def) X가 discrete r.v.이고 m이 X의 distribution func. Ω가 sample space라고 하면 expected value(mean) E(X)은 x*m(x)의 총 합을 의미한다. 만약 x*m(x)의 sum이 수렴하지 않는다면, 기댓값이 무한한 것이 아니라 X는 Expected value가 없다고 표현한다. 더보기 ex) tossing a fair coin 3 times. r.v. X : # of heads. Ω = {0,1,2,3} E(X) = 0*m(0)+1*m..

개인 공부 2024.04.09

데이터 과학 - 6. Data Understanding & Visualization

* Data Understanding => 데이터가 모델링을 위해 충분한 quality를 갖추고 있는가는 다음의 3가지로 따진다. - Completeness : 모인 데이터의 size를 측정한다. - Noisiness : Scatter plot을 그려 경향성이 있는지 확인 가능하다. - Consistency : Mean, Variance를 그려 확인할 수 있다. 어떤 모델이 사용되어야하는지 판단은 plot을 그리거나 상관계수를 측정하여 결정할 수 있고, 데이터가 project target에 관련 있는지는 Visualization, modeling하기에 충분한지는 Data size를 측정함으로 알 수 있다. 우선 데이터를 사용하기 전에 데이터의 특성에 대한 이해를 하는 것은 매우 중요하다. 데이터의 특성이..

개인 공부 2024.04.09

데이터 과학 - 5. Data Acquisition

* Data Acquisition CRISP-DM에서 데이터 이해 과정을 생각해보자. 1. 초기 데이터 수집. 2. 데이터 묘사. (데이터 셋의 field, records 등에 대한 설명서) 3. 데이터 탐색. (querying, visualization 그리고 요약을 통해 데이터 과학 질문, 데이터가 어떤 영향을 끼치는지 파악) 4. 데이터의 Quality 검증. (데이터의 결측이나 오류 등을 검증한다.) TDSP에서 데이터 습득 및 이해 과정을 생각해보자. - 목표 : 대상 변수와의 관계가 파악된 깨끗한 고품질 데이터 세트 생성, 데이터를 정기적으로 고치고 점수를 매기는 데이터 파이프라인의 개발. - 과정 : 데이터 수집 -> 데이터 탐색 -> 데이터 파이프라인 설정하여 새로운 데이터 점수 매김. =..

개인 공부 2024.04.09