스터디/Machine Learn

1. 머신런 개요 _ 행렬연산

elenalee 2024. 6. 9. 12:50

1. 인공지능과 머신런 

1)인공지능 

(1)인공지능과 머신러닝

인간 지능을 모방하여 문제해결을 위해 사람처럼 학습/이해하는 기계

 

약인공지능 : 지능적인 것처럼 행동하는 기계 ( 실제 지능의 소유여부와 관계없음 )

                   정의된 특정 목적을 달성하고 해결하는 능력 

강인공지능 : 지능의 모방이 아닌 실제 인간처럼 생각하는 기계 

                   스스로 문제정의/해결, 지속적인 학습, 자아/감정등의 광범위한 지적능력 

 

Machine Learning

인산이 가진 고유의 지능적 기능인 학습능력을 기계를 통해 구현하기 위한 접근방법

주어진 데이터를 분석하여 일반적인 규칙이나 새로운 지식을 기계 스스로 자동으로 추출하기 위한 접근방법 

데이터의 다양한 변형을 다룸 

 

(2) 머신러닝의 발전

Deep Learning : 심층 신경망 기반의 머신러닝 분야 ( 다수의 은닉층 )

최초의 인공신경망 개념 (1943) : 뉴런 모델 제시 ( 워런 맥컬록 , 월터피츠)  

튜링 테스트 제안 (1950) : 인공지능여부판별 (앨런 튜링)

인공지능 용어등장(1956) : 다트머스 학회(마빈 민스키, 존 매커시)

퍼셉트론 (1958) : 프랑크 로잰블랫 , 최초의 신경망 모델 

머신러닝(1959) : 머신러닝을 이용한 체커 프로그램 개발 (아서 사뮤엘)

Elizia(자연어처리, 1965) : 심리치료를 위한 답변생성(조셉 아이젠바움, 챗봇 원조)

DENERAL, MYCIN : 전문가 시스템(1980, 화합물, 전염병 진단/처장, 에드워드 파이겐바움)

Deep Blue (1997, IBM) : 체스 

LeNet-5 (CNN, 1998) : 손으로 쓴 숫자인식 (얀 르쿤)

자율주행 자동차 (2009, 구글) → IBM Watson(의료진단, 2011) → AlexaNet(2012, 이미지분류)

GAN(생성적 대립신경망,2015) → TensorFlow(2015, 구글) → 알파고 (2016) 

 

2) 머신러닝의 처리과정

 

(1)처리단계 

- 학습단계(전처리, 특징추출, 학습)  + 추론단계 (추론/회귀/군집화의 판단결과 도출)

학습 단계

전처리 : Training Data Set (학습 데이터 집합)을 분석에 용이하도록 가공/변환 

             문제와 입력에 따라 적절히 수행 ( 영상 데이터 - 크기 보정, 입력값 - 편차 조정 및 정규화 )  

특징추출 : 데이터의 특성을 분석(작업에 용이한 형태로 표현) 핵심적인 특징만 추출 

                불필요한 정보를 제거하여 계산량 메모리 절약 

학습 : 결정함수, 결정규칙 생성 (입출력 관계 Mapping)

추론 단계 : 판단결과 도출 (분류/회귀/군집화

 

Maching Learning System개발과정 

문제파악 - 데이터수집 및 이해 - 데이터준비(전처리) 및 특징추출 - 모델수립 및 분석 - 모델평가 - 배포 

 

(2) 머신러닝의 기본요소 

 

① 데이터와 데이터 분포 

- 데이터 표현 : n차원 공간의 한 점으로 n차원의 벡터(통상 열벡터로 취급)

                      전치(transpose)하여 행벡터로 표현하기도 함 

  데이터의 집합 : m차원을 가진 N개의 데이터, N x m의 행렬로서 다룸

MNIST 데이터의 예

 

- 데이터 분포 (집합의 분포특성)

 해당 공간상의 데이터 분포 중요 (표본 추출시 모집단의 분포와 동일하다고 가정하므로)

 

② 특징 추출 

주어진 데이터의 핵심정보를 추출, 보다 적은 차원으로 변환, 불필요한 정보제거로 비용(계산량/메모리)절약

- 격자 특징추출 : 잡음 완화 

- 사영에 의한 특징 추출 (projection) : 단순한 차원축소가 아닌 핵심정보 추출, 데이터의 분포특성을 잘

   나타낼수 있는 방향 설정

- 격차특징, 수직히스토그램, 방향특징, 사영에 의한 특징추출 등을 사용

 

③ 성능 평가

학습 시스템 

데이터로부터 학습을 통해 추출하고자 하는 정보를 표현하는 시스템 

입출력 매핑형태의 함수로 정의,  𝑓(𝑥) = ( 𝑥 ; θ )

학습 : 데이터를 이용하여 함수 𝑓를 찾는것

          학습 시스템의 매개변수 θ를 찾는것 

학습의 목표 : 앞으로 주어질 새로운 데이터에 대한 성능 최대화 

 

목적함수 (objective function) - 궁극적 목표는 목적함수의 최적화 

주어진 데이터 집합으로 학습 시스템이 달성해야 하는 목표를 기계가 알수 있는 수학적 함수로서 정의

 

오차함수 (error function) - 대표적인 목적함수

학습시스템의 출력값과 원하는 출력값의 차이('오차')로 정의, 학습의 목적은 오차를 최소화하는 것

 

오차함수를 이용한 성능평가의 기준

학습 오차 (training error) : 학습 데이터에 대해 계산된 오차 

테스트 오차 (test error) : 학습에 사용되지 않은 새로운 데이터 집합에 대해 계산된 오차 

일반화 오차 (generalization error) : 관찰될 수 있는 모든 데이터 분포에 대해 정의되는 오차

                                                         테스트 오차로 대신평가 (실제로 모든 데이터 계산 불가)   

일반화 오차의 추정

교차검증법 : 제한된 집합을 이용하여 일반화 오차에 좀더 근접한 오차값을 얻어내기 위한 방법

K-분절 교차검증법 (k-fold cross validation) : k개의 데이터 집합으로 나눠 학습과 테스트 반복

 

(3) 머신러닝의 주제

데이터 분석 - 분류(classification), 회귀(regression), 군집화 (clustering)

데이터 표현 - 특징추출(feature extration) → representation learning 

 

분류 : 입력데이터가 어떤 부류에 속하는지를 자동으로 판단하는 문제

          target output(이산값)을 함께 제공, 출력값은 class label, 예)인식 문제(숫자,얼굴,생체 인식등)

          학습 목표 : 분류오차를 최소화하는 최적 결정경계 𝑔(θ) (𝑔(𝑥)≥0이면 1, 𝑔(𝑥)<0이면 0)

                           decision boundary(결정경계), 결정함수(decision function)

          성능평가척도 : 분류율, 분류오차 (분류성공/전체, 분류실패/전체)

          베이즈 분류기,k-근접이웃 분류기, 결정트리, 랜덤포레스트, SVM, 신경망(MLP, CNN, LSTM)

회귀 : 입력변수와 출력변수 사이의 매핑관계를 분석 (이산적)

          target output(실수)을 함께 제공, 출력값은 실수값, 예)시계열 예측(시장예측,환율예측,주가예측)

          학습 목표 : 회귀오차를 최소화하는 최적의 회귀함수 𝑓(𝑥) = ( 𝑥 ; θ )를 찾는것 (제곱오차 최소화)

          선형회귀, 비선형회귀, 로지스틱회귀, SVM, 신경망 ( MLP, RBF, CNN, LSTM )

군집화 : 데이터 집합을 서로 비슷한 몇개의 군집(cluster)로 묶는 문제 ( 클래스 레이블 정보없음 )

             학습 목표 : 최적의 클러스터 집합 (클러스터내 분산 최소화, 클러스터간 분산 최대화)

             학습결과 : K개의 서로소인 부분집합 (확률을 최대로 하는 인자를 찾는 것)

            예) 데이터 그룹화, 영상 분할 

            K군집 군집화, 계층적 군집화, 가우시안 혼합모델, 신경망(SOM)

특징 추출 : 원 데이터로부터 분석에 적용하기 좋은 특징을 찾아내는 문제 

            학습 목표 : 분석목적에 따라 상이 (차원축소- 정보손실량 최소화, 

            학습 결과 : 변환함수(embedding function)

            예) 영상 데이터의 차원 축소, 데이터 시각화 

            주성분 분석(PCA), 선형판별분석(LDA), MDS, t-SNE

** linear descriminant analysis : 선형변환으로 특징을 추출하여 차원축소

    multidimensional scaling : 저차원 축소, 각 포인트간의 상대적인 거리나 유사성 유지 

    t-SNE(t-distributed Stochastic Neighbor Embedding) : 선형/비선형 모두 사용

               국소적인 데이터구조를 잘 보존 (PCA는 큰방향성 보존)

 

(4) 머신러닝 유형

 

① 기본유형 : 지도학습, 비지도학습, 강화학습, 준지도학습, 약지도학습, 자기지도학습

supervised learning - 학습시 시스템이 출력해야 할 목표값('교사')함께 제공, 분류/회귀 

unsupervised learning - 학습시 목표값에 대한 정보가 없음, 군집화 

semi-supervised learning - 지도학습 + 비지도학습 (클래스 레이블링 비용을 줄이려는 목적)

reinforcement learning - 출력값에 대한 교사신호가 reward(정확한 값이 아니고, 즉시 주어지지 않음)

** 약지도학습 (부정확한 레이블도 사용), 자기지도학습(학습 데이터에 레이블 자동 부여)

 

② 과다적합

- 학습 시스템이 학습데이터에 대해서만 지나치게 적합한 형태의 결정경계가 형성

원인 : 학습데이터의 확률적 잡음 혹은 학습 데이터 개수의 부족으로 일반화 성능저하 초래 

영향 : 일반화 성능저하 

 

③ 해결방안 : 학습 데이터 복잡도 조정

  - 다양한 변형을 가진 충분한 학습 데이터 사용

  - 조기종료방법 : 학습 데이터와 별도의 검증데이터로 최적의 복잡도에서 멈춤

                           (오차율 감소에서 증가로 전환되는 지점)

  - 정규항을 가진 오차함수 사용 (오차함수에 복잡한 결정경계에 패널티 추가하는 정규항 삽입)

  - 최적의 모델선방법 (여러개 모델로 학습 후)

 

④ 기타 주제 

    앙상블학습 : 복수개의 간단한 학습 시스템을 결합하여 일반화 성능향상 

    능동학습 : 학습과정에서 데이터를 선별적으로 선택하여 수행

    메타학습과 자동머신러닝 : 학습 시스템의 복잡도 등 하이퍼파라미터까지 학습을 통해 최적화 

    지속/증분학습 : 기존 학습내용에 대한 손실없이 새로운 내용을 추가로 학습 

 

 

벡터와 행렬 

실수값을 가진 𝒏차원의 벡터 𝑥는 실수공간 𝑹ⁿ 상의 한점 ( 𝑥  𝑹ⁿ )

( 기본벡터 : 𝑹 각 좌표축의 방향을 가지고 크기가 1인 n개의 벡터 𝑖₁, …, 𝑖ₙ, 𝑥ᵢ는 벡터의 𝑖번째 성분)

𝑥 = 𝑥𝑖₁ + 𝑥𝑖₂+   𝑥𝑖 , 𝑥 = [𝒂₁,𝒂,..., 𝒂]ᵀ = 𝒂₁𝑖₁ + 𝒂𝑖₂ +...𝒂𝑖

 

벡터의 크기는 2차 norm으로 계산 

 

𝑥, 𝑦 의 내적과 그 공간상의 의미는 

 

벡터 𝑥의 벡터 𝑦 위로의 사영으로 얻어지는 벡터

 

두 벡터 사이의 거리는 데이터의 유사성을 측정하는 척도로 사용

유클리디안 거리 

 

코사인 거리(Cosine Distance) 와 코사인 유사도(Cosine Similarity)

코사인 거리가 0 일때 같은 방향, 1이면 수직, 2이면 반대방향

 

𝒏차원 실수공간 𝑹ⁿ에서 서로 선형독립인 𝒏개의 벡터 𝑥₁ , 𝑥₂ , ... 𝑥

𝑥 = 𝒂𝑥₁ + 𝒂𝑥₂ +...𝒂𝑥ₙ ,     𝑥₁ , 𝑥₂ , 𝑥ₙ이 상호직교이면 직교기저 

 

단위 직교기저모든 벡터의 norm=1이면 단위직교기저 

𝑥 = 𝒂𝑒₁ + 𝒂𝑒₂ +...𝒂𝑒ₙ ,    (𝑒₁ , 𝑒₂ , 𝑒ₙ이 수직이면서 크기가 1인벡터)

𝒂₁, 𝒂₂, 𝒂ₙ은 각각 𝑒₁, 𝑒₂, 𝑒ₙ으로의 사영의 크기 

 

∴ 𝒏차원 실수공간 𝑹ⁿ에서 단위직교기저{𝑒₁ , 𝑒₂ , ... , 𝑒ₙ}들의 선형합으로 표현되며, 

   임의의 기저벡터에 대해  𝑒  · 𝑒 = 1,   𝑒   · 𝑒ⱼ = 0 

 

단위직교기저{𝑒₁ , 𝑒₂ , ... , 𝑒ₙ}의 기본벡터로 구성된 표준단위직교기저 { 𝑖₁,𝑖₂, ..., 𝑖ₙ }의 벡터표현 

 

𝑥 = [ 𝒂₁, 𝒂₂, ... , 𝒂 ]ᵀ = 𝒂𝑖₁,+ 𝒂𝑖₂, ... + 𝒂𝑖

 

단위직교기저가 아닌 일반적인 단위 벡터인 경우, 𝑥 = 𝑏𝑒₁ + 𝑏𝑒₂ +...𝑏𝑒 

𝑏ᵢ= proj(𝑥, 𝑒ᵢ) = 𝑥  · 𝑒

 

단위직교기저가 아닌 일반단위벡터로 기저구성

 

기저에 따라 표현하는 좌표값이 결정되며, 데이터의 특성을 가장 잘 표현할수 있는 기저 추출이 중요 

 

행렬의 𝐗의 rank 

 

전치행렬의 특성 

 

여러 종류의 행렬

대각행렬 : 대각원소외 모든 원소가 0

단위행렬(항등행렬)  :   𝑰 = diag[1,1,..., 1]

대칭행렬  :  [𝑥ᵢⱼ] = [𝑥]  혹은  𝐗ᵀ = 𝐗

삼각행렬 : 상삼각행렬, 하삼각행렬 ( 대각원소의 위 혹은 아래에만 값이 있고 나머지 0)

역행렬 :  𝐗¹𝐗 = 𝐗𝐗¹ =  𝑰

직교행렬 : 𝐗𝐗 = 𝐗𝐗 = 𝑰 ( 각 행벡터가 상호직교인 단위벡터 )

 

공분산 행렬은 대칭행렬 ( 머신러닝에서 많이 사용 )

𝒏 x 𝒏 크기의 직교행렬 : 𝒏 차원의 실수공간에서 직교기저들을 행혹은 열벡터로 가지는 행렬 

 

정방행렬의 특성 

대각행렬의 성질   𝐃𝐗 = { 𝑑ᵢ , 𝑥ᵢⱼ }  𝐗의 i번째 행에 𝑑ᵢ 를 곱함

                          𝐗𝐃 = { 𝑑 , 𝑥ᵢⱼ }  𝐗의 j번째 열에 𝑑를 곱함

단위행렬의 성질   𝑰𝐗 = 𝐗𝑰 = 𝐗

대칭행렬의 성질  𝐗, 𝐘가 대칭행렬이면  𝐗+𝐘, k𝐗도 대칭행렬

역행렬의 성질 (c𝐗¹)ᵀ = 1/c(𝐗¹), (𝐗𝐘)¹ = 𝐘¹𝐗¹, (𝐗ᵀ)¹ = (𝐗¹)v           

 

직교행렬  (행의 요소들의곱/ 열의 요소들의 곱은 0, 행의 요소들을 제곱하면 1) 

 

정방행렬 𝐗의 determinant(행렬값) 

𝐗ᵢⱼ는 𝒏 x 𝒏 정방행렬에서 i번째 행과 j번째 열을 제거한 (𝒏-1)x(𝒏-1)행렬 

 

determinant의 성질 

 

** 특이 행렬 - 행렬값 0, 역행렬이 존재하지 않음  

 

eigen decomposition

행렬은 고유벡터를 열벡터로 하는 행렬고유값을 대각원소로 하는 행렬의 곱으로 대각화 분해

행렬 A의 고유벡터를 열벡터로 하는 행렬 P, 고유값의 대각행렬 𝚲,  AP = P𝚲,  A = P𝚲P¹

 

eigen value와 eigen vector
- 행렬 A를 선형변환으로 볼때, 선형변환 결과가 자기 자신의 상수배가 되는 벡터 (0이 아닌) 

   선형 변환후 방향은 보존되고 스케일만 변화되는 방향벡터와 스케일 

𝐗 𝑒 = 𝝀𝑒ᵢ 를 만족하는 0이 아닌 벡터인 𝑒ᵢ 는 𝐗의 고유벡터, 대응되는 스칼라 값 𝝀ᵢ : 고유치 

 

행렬, eigen value, eigen vector의 곱연산 관계성 

- 행렬 A의 고유값과 고유벡터를 𝝀ᵢ , 𝛎ᵢ ( 𝑖 = 1,2,..., n)라고 할때 행렬에 대각 행렬을 곱하면

   행벡터(앞쪽) 혹은 열벡터(뒤쪽)가 상수배가 됨 

- A𝛎 = 𝝀𝛎, (A-𝝀)𝛎 = 0, (A-𝝀𝑰)𝛎 = 0, A-𝝀𝑰의 역행렬이 존재시 𝛎=(A-𝝀𝑰)¹0으로 0행렬만 가능함

  고유벡터는 𝛎 ≠ 0 (0벡터가 아님)이므로 (A-𝝀𝑰)의 역행렬이 존재하지 않는 경우에만 존재가능 

  ∴ det(A-𝝀𝑰) = 0 

n x n 정방행렬에 대한 eigen vector/eigen value와 eigen decomposition

 

사용예 ) det(A) = det(P𝚲P¹) = det(P)det(𝚲)det(P¹) = det(𝚲)

             det(A¹) = det(P𝚲¹P¹) = det(P)det(𝚲¹)det(P¹) = Pdiag(1/𝝀₁, ... , 1/𝝀ₙ)P¹

 

 

▷ 행렬 𝐗의 특성방정식

𝐗의 고유벡터 𝑒ᵢ , 대응되는 고유값 𝝀라고 하면,   𝞓x(𝝀) = | 𝐗 - 𝝀𝑰 | = 0

 

양의 정부호 행렬 (positive definite matrix) 

실수의 대칭행렬 𝐗가 임의의 벡터 𝑥에 대해,  𝑥 𝐗 𝑥 > 0 for all  (  𝑥 ≠ 0 )

𝑥 = [ 𝑥₁, 𝑥₂, ... , 𝑥ₙ ]ᵀ 의 n개의 원소를 변수로 가지는 2차 다항식,

어떠한 𝑥에 대해서도 0보다 크므로 모든 고유치가 양수 

 

유사행렬 : 행렬 𝐗와 𝐘가 임의의 비특이행렬 P에 대해 𝐘 = P¹𝐗P 이면 𝐘는 𝐗와 유사

대각화 가능행렬 : 행렬 𝐗가 대각행렬 𝐃와  임의의 비특이행렬 P에 대해  𝐃 = P¹𝐗P

** P가 직교행렬 일때 𝐗는 직교 대각화 가능행렬 

 

유사행렬 𝐗와 𝐘는 행렬값과 행렬방정식 동일

𝐗가 대각화가능하며 그 대각행렬이 𝐃일때 고유치가 같으며, P𝐗= 𝐃P이므로 𝐗의 고유벡터는 행렬 P의 각열 

 

데이터변환 

벡터 : 공간상의 한점이며, 기저를 이루는 벡터들의 선형합

N개의 데이터 집합을 나타내는 행렬 𝐗와 기저벡터로 𝚬로 이루어진 행렬   

각 데이터는 n차원의 열벡터, 𝑥ᵢ = [ 𝑥ᵢ, 𝑥ᵢ, ... 𝑥ᵢ ]ᵀ 로 

기저벡터로 기본벡터를 사용한다면  𝑥ᵢ = 𝑥𝑖₁ + 𝑥ᵢ𝑖₂ +... 𝑥𝑖 

일반적인 기저벡터가 { 𝑒₁ , 𝑒,..., 𝑒ₙ }이면  𝑥ᵢ = 𝒂𝑒 + 𝒂 𝑒 +... 𝒂𝑒ₙ 

 

 

데이터 선형변환

 

𝑛개의 기저벡터를 가진 𝑛차원 공간상의 데이터를 𝑚개의 기저벡터를 가진 𝑚차원 공간상의 점으로 변환

임의의 𝑛차원 벡터 𝑥, 𝑦와 임의의 실수 𝑎, 𝑏에 대해  𝜯(𝑎𝑥 + 𝑏𝑦) = 𝑎𝜯(𝑥) + 𝑏𝜯(𝑦)

𝑚 x 𝑛 행렬 𝐖에 의한 변환 𝜯를 𝑛차원 공간벡터서 𝑚차원 벡터공간으로의 행렬변환 (선형변환)

 

𝑖₁ = [1 , 0 ]ᵀ, 𝑖  = [ 0, 1 ]ᵀ의  𝑥 = [ 𝑥₁, 𝑥₂ ]ᵀ   

2차원 → 2차원 공간변환을 가정, 𝑒  = [ 𝑎, 𝑐 ], 𝑒₂ = [ 𝑏, 𝑑 ]

𝜯(𝐗) = [ 𝑎𝑥₁ + 𝑏𝑥₂ , 𝑐𝑥₁ + 𝑑𝑥 ]

 

머신런에서의 데이터의 선형변환 

계수행렬 𝐖적용하여 데이터의 특성을 잘 반영할수 있는 새로운 특징(좌표)값으로 변환

예) 정방행렬 (공간내에서 좌표축만 변환) - 회전변환행렬, 원점대칭이동변환행렬 

     ** 열벡터가 선형독립, 크기가 1( 𝐖𝐖ᵀ = 𝑰 , 직교행렬에 의한 직교변환, 내적값 유지)

 

확률과 통계 

확률론의 기본개념

확률실험 : 수행결과가 확률적으로 변하는 실험, 

표본공간 : 확률실험에 의해 가능한 모든 결과의 집합 𝐒

사건 : 확률시험의 결과 ( 표본공간의 부분집합 )

상호배반사건 : 두 사건 𝐀, 𝐁에 대해  𝐀 𝐁  = Ø 

 

결합확률과 조건부확률 

𝐏 ( 𝐀 𝐁 ) = 𝐏 (𝐀) + 𝐏 (𝐁) - 𝐏 (𝐀  𝐁 )

𝐏 (𝐀  𝐁 ) = | 𝐀  𝐁 | / | 𝐒

 

𝐀, 𝐁가 배반사건이면 𝐏 ( 𝐀  𝐁 ) = 𝐏 (𝐀) + 𝐏 (𝐁)이므로 

 

조건부 확률 : 사건 B가 관여된 조건에서 사건 A가 일어날 확률 

 

사건 A가 일어날 확률과 사건 B가 일어날 확률이 독립적이면 

𝐏(𝐀𝐁) = 𝐏(𝐀)𝐏(𝐁), 𝐏(𝐀|𝐁) =𝐏(𝐀), 𝐏(𝐁|𝐀) =𝐏(𝐁) 

 

베이즈 정리 

𝐏(𝐀𝐁) = 𝐏(𝐁|𝐀)𝐏(𝐀) = 𝐏(𝐀|𝐁)𝐏(𝐁) 

실제 문제에 적용할때에는 확률 𝐏(𝐁)이 얻어지지 않는 경우가 많으므로, 조건부 확률 𝐏(𝐁|𝐀)를 사용하여 

 

확장된 베이즈 정리 

 

random variable (확률변수) - 이산확률변수, 연속확률변수 

시행의 결과로 나타나는 사건을 수치로 대응시키는 함수(시행결과를 수치화 할때 각 사건값들의 변수)

𝐏 ( 𝐗=𝑥)로 표시, 예) 동전던지기 앞면이 나오는 숫자를 확률변수 𝐗, 𝑥 = { 0, 1 }

 

확률분포함수 (probability distribution) : 𝐏 ( 𝐗=𝑥 )의 분포 

이산확률변수의 분포 : 표형태 , 확률함수: 확률질량함수

연속확률변수의 분포는 : 함수식 형태 , 확률함수 : 확률밀도함수 

 

확률변수 𝐗의 누적분포함수( cumulative distribution function: cdf)는

𝐅(𝐗) = 𝐏(𝐗 ≤ 𝑥) , 확률변수 𝐗가 𝑥

𝐗가 연속확률변수일때 누적분포함수의 미분값으로 확률밀도 함수 𝑓(𝐗)

 

확률변수의 통계량 

 


평균과 분산은 데이터 집합의 분포특성을 나타내는 기본적인 통계량

 

 

가우시안 분포함수 

연속확률변수의 확률분포특성을 나타내기 위해 사용하며 정규분포의 확률밀도적용 

 

1차원 Gaussian 확률밀도

 

중심극한정리 (central limit theorem) 

확률변수 𝐗₁,...,𝐗 이 서로 독립이고 동일한 확률분포, (𝐗₁+...+𝐗ₙ)/n의 분포는 정규분포로 수렴

 

랜덤 벡터 (확률변수의 확장)

두개이상의 확률변수로 이루어진 다변량 확률변수 𝐗₁,𝐗₂,...,𝐗

예) 𝐗₁,𝐗₂의 2변량 랜덤벡터에서 각각의 1차원 표본공간 𝐒₁,𝐒내의 값 𝑥₁,𝑥 를 가질때 

    → 랜덤벡터 (𝐗₁,𝐗₂)는 2차원 표본결합공간  𝐒=𝐒₁ x 𝐒₂ 내의 2차원 좌표값 ( 𝑥₁,𝑥₂ )

    키와 몸무게로 이루어진

랜덤변수 𝐗₁,𝐗₂로 이변량 랜덤벡터를 생성하면 2차원 실수공간상의 한점,

n개의 확률변수로 n차원의 결합표본공간의 벡터로 표현가능 

 

결합확률분포

확률변수 𝐗₁,𝐗₂의 단일누적분포함수에 대한 이변량 랜덤벡터(𝐗₁,𝐗₂)결합분포누적함수를 n차원으로 확장하면 

 

이산 변수일때 결합확률질량함수

 

결합누적분포함수의 각 변수에 대한 편미분(결합확률밀도함수)으로 연속확률함수가 특정범위의인 확률계산가능

각변수 𝐗ᵢ 가 구간 (𝑎ᵢ, 𝑏)내의 값을 가질 확률 

 

예) 체중 확률변수 𝐗₁, 신장 확률변수 𝐗₂ 로 이루어진 결합확률밀도함수 𝑝(𝐗₁, 𝐗₂)

 

결합확률밀도함수가 주어지면, 개별 변수의 확률밀도함수(주변확률밀도함수)계산 가능 

n개의 이산확률변수에 대한 결합확률질량함수가 주어지면 확률변수 𝐗₁의 주변확률질량함수는

𝐗₁이 특정값 𝑥ᵢ 일때 나머지 모든 확률변수가 가질수 있는 모든 확률값을 더함 

 

연속확률변수에 대한 결합확률밀도함수가 주어지면 𝐗₁의 주변확률밀도함수는 나머지 확률변수가 취하는 모든값의 적분으로 정의될수 있음 

 

랜덤벡터의 통계량 : 기대치 벡터(평균벡터), 공분산 행렬

기대치 벡터 

𝚬[𝐗] = 𝚬[(𝐗₁,𝐗₂,...,𝐗)] = (𝚬[(𝐗)], 𝚬[(𝐗)], 𝚬[(𝐗)]) = (𝞵₁,𝞵₂,...,𝞵ₙ) = 𝞵

랜덤벡터의 평균은 각 확률변수 𝐗 에 대한 확률을 주변확률분포로 한 위의 식으로 계산가능  

 

공분산행렬

단일확률변수에서 정의된 분산의 확장, 하나의 확률변수(𝐗ᵢ)에 대한 분산(자체공분산, σ)외에도 서로 다른 확률변수(𝐗ᵢ,𝐗ⱼ) 에 대한 공분산(σⱼ)도 정의, 이러한 값들을 원소로 가지는 행렬이 공분산 행렬 

 

실제에서는 표본평균과 표본공분산을 사용하여 추정 , 두 확률변수(𝐗ᵢ,𝐗ⱼ)에 대해 

랜덤벡터의 공분산행렬은 벡터 요소간의 상관관계를 나타내어 데이터 특성분포를 나타내는 통계량 

공분산 행렬로부터 각 요소간의 상관관계를 -1 ~. 1로 대응하여 상관계수로 표현 

𝐗ᵢ가 증가할때, 𝐗ⱼ도 증가하면  σⱼ는 양수, 𝐗ᵢ가 증가할때, 𝐗ⱼ는 감소하면  σⱼ는 음수

𝐗ᵢ와 𝐗ⱼ의 증감이 아무 상관관계도 없으면 σⱼ=0 ( σᵢ, 𝐗ᵢ와 자신(𝐗ᵢ)의 공분산은 𝐗ᵢ의 분산이며, 항상 양수) 

 

각 변수 자체의 분산의 크기가 σⱼ에 영향을 주므로 분산의 영향을 없애는 상관계수𝜌ⱼ를 정의하며, 

𝜌 : -1 ~ 1의 값, 𝐗ᵢ와 𝐗ⱼ 정비례 1, 반비례 -1, 상관관계가 없으면 0, 상관관계가 클수록 |𝜌ⱼ|증가

 

다변량 가우시안 분포함수 

n차원 랜덤벡터에 대한 평균 𝞵, 공분산 행렬 𝚺

 

예) 2차원 랜덤백터 확률밀도함수는 3차원 공간의 종모양 입체

      중심:평균벡터, 퍼짐: 공분산행렬( 요소간의 상관 관계에 영향 ) 

 

조건분포와 독립확률변수

 

두확률변수 𝐗,𝐘에 대해 𝐘가 특정값으로 주어진 경우 𝐗의 확률분포 (𝐗의 조건분포)

조건분포 : 결합확률분포에서 한 확률변수가 특정값이면(𝐘 = 𝑦)일때 나머지 변수(𝐗)의 확률분포 

예) 동전의 3번 던질때 두번째 앞면 𝐗, 세번째 앞면 𝐘

     Y=0에서의 X의 조건분포확률은 P(𝐗=1|𝐘=0)=  P(𝐗=1|𝐘=0)/P(𝐘=0) = (1/4)/(1/2)=1/2 

 

두 확률변수 𝐗,𝐘의 확률결합함수가 주변확률함수의 곱과 같으면 서로 독립 

𝐘 = 𝑎𝐗+𝑏

 

결합확률분포와 주변확률분포

'스터디 > Machine Learn' 카테고리의 다른 글

6. Deep Learning  (0) 2024.08.28
5. 신경망  (0) 2024.08.27
4. 앙상블, 결정트리, 랜덤포레스트, SVM/커널  (0) 2024.08.20
3. 비지도 학습_ 군집화와 특징추출  (0) 2024.08.19
2. 지도학습- 분류와 회귀  (0) 2024.08.01