Statistics
시계열 예측 모델 중 베이스라인으로 활용하는 4개의 모델이 있다. 이는 마지막 예측값을 어떤 값으로 할지에 따라 나뉜다. average method: 과거 데이터의 평균값으로 마지막값 예측 naive method: 관측값 중 마지막 값을 예측값으로 seasonal method: 같은 seasonal point 중 과거의 point을 예측값으로 , 올해 값이 없으면 작년, 제작년 값 사용 drift method: naive method에 trend를 반영한 것. 마지막값 + 변화의 평균값(x변화량, y변화량) [R code] meaf(y, h=20) naive(y, h=20) snaive(y, h=20) rwf(y, drift=TRUE, h=20) #FALSE면 naive
Basic of Time Series forecasting이란 Time Series Analysis의 한 분야로 미래에 이어질 sequence of observation을 예측하는 것 여기서, seqeunce는 random variable 미래의 움직임이 어떻게 될지 예측하는 것 과거의 정보는 conditioning하여 미래의 정보를 예측함 Time series의 pattern은 크게 trend, seasonal, cycle로 구성되어 있음 Lag와 Autocorrealtion lag(K)는 시차를 의미 시계열에서는 correlation 대신 autocorrelation, 즉 자기 상관계수라는 개념이 사용됨: $y_t$ 와 $y_{t-k}$ 간의 관계에 대한 값 이러한 autocorrelation은 함수..
확률 변수 변환 기존 변수와 이 변수의 pdf를 활용하여 새로운 변수에 대한 function을 정의하는 것 각 분포의 pdf form 기억해둘 것 적분 공식들, 테일러 급수, 등비급수 공식 기억 1차원 - 1차원 변환 다차원 - 다차원
통계학과에서 공부하면서 지겹도록 배운 분포들을 총정리 해봤다. 각 분포의 PDF와 MGF 정도는 알고 있어야 수월하게 문제를 풀 수 있으니 한 번 정리가 필요하다고 판단했다. 시간이 된다면 각 분포별 자세한 포스팅도 해보겠다! 정리한 파일을 공유하니 보실분들은 편하게 다운로드해서 봐주시길 바랍니다. :) Discrete Distribution - Binomial - Geometric - Negative binomial - Hypergeometric - Poisson Continous Distribution - Uniform - Normal - Gamma - Beta