계량경제학
- 계량경제학의 개요
- 실증경제학의 체계
제 1 장 회귀분석의 성격
제 2 장 2-변수 회귀분석
- Digression
제 3 장 통상최소자승법(OLS)
제 4 장 정규분포의 가정
제 5 장 구간추정과 가설검정
<- 회귀분석의 실제 예제
계량경제학의 개요
계량경제학(Econometrics)의 어원
: 경제의 측정, 개념적으로 정의되는 변수에 대하여 실제 량을 측정해봄
economy + measure
예) 경제자료의 측정예
개 념
이 론
측 정
국민소득(GNP)
Y
386조 6,404억원 (’96년)
저 축 률
S
0.346
총 통 화
178조 3,116억원 (’97년)
변수사이의 관계
: 변수들 간의 상호연관 관계(양의 관계인지, 음의 관계인지, 불확정 관계인지 판단해보자)
예) 아버지와 아들의 키, 기온과 에어컨 가동률
가격과 수요량 혹은 공급량 소득과 소비
광고비와 판매량 이자율과 저축 및 투자
공부한 시간과 학점 etc. 데이트 상대 수와 용돈의 지출
경제이론은 변수, 특히 경제변수들 간의 관계를 파악하는데 치중한다.
이론모형과 계량모형
이론모형은 개념적으로 정의된 변수의 상호 관계를 implicit function, 혹은 explicit function으로 표시하는데 치중함으로써 이론에만 그칠 뿐 현실적으로 사용하는데는 한계가 있음.
예) 수요곡선의 이론 (law of demand)
i) 수요곡선이 우하향
⇒ 가격 ↓, 수요량 ↑하는 관계를 암시
ii) 기울기의 정도
⇒ 관계가 어느정도로 sensitive한가?
iii) 곡선의 곡률
⇒ 구간별 탄력성의 정도를 표시
그러나 계량모형은 구체적인 함수의 형태와 파라메터(모수)를 추정해 내려는 작업
예)
??
즉, 이론모형이 로 주어졌을 때 구체적인 과 의 parameter 값을 통계자료로부터 추정해 내는데 치중하는 모형을 의미함. 이론모형이 두 변수간의 확정적인 관계를 나타내는 반면 계량모형은 오차항()이 부여됨. 왜냐하면 해당 자료의 실제 관계는 관찰치에 따라 서로 다르기 때문임.(확률적 관계)
예)
자료의 종류
?time series(시계열 자료)
?cross section(횡단면 자료)
?pooled data (panel data)
예)소득자료의 정리
개인 1
개인 2
...
개인 20
1993
1994
1995
1996
cross section
time series panel data
실증경제학의 체계
(처음으로)
개요 및 절차
(1) 이론의 서술:
the law of demand : 가격이 올라가면 수요는 줄어들고 가격이 내려가면 수요는 늘어난다. 즉 가격과 수요량은 음의 관계를 가진다.
(2) 수학적 모형:
: 가격과 수요량간의 일차함수 관계를 상정하고 구체적인 파라메터는 모르는 상태에서 이론을 전개
(3) 계량모형:
: 수학적 모형에서와 같이 함수관계를 설정하는데 확률적 개념을 도입하여 오차항을 포함한 모형의 설정(data를 이용하여 파라메터를 추정할 수 있음을 암시
(4) 자료의 수집
모형을 추정하기 적당한 자료를 현실 통계자료로부터 수집
(5) 파라메터 추정:
: 계량경제학적인 추정방법을 통하여 파라메터의 구체적인 값을 추정
(6) 가설의 검정:
: 이론을 통계적 추론을 통하여 검정
(7) Forecasting:
P = 4.5일 때 Q 는 얼마이가? : 추정된 파라메터의 값을 사용하여 가격이 주어졌을 때 수요량을 예측할 수 있음
하나씩 자세히 알아보자
(1) 이론의 서술
law of demand : 다른 조건이 일정할 때 (ceteris paribus) 상품의 가격이 오르면 구매자들도 상품을 적게 살려고 하고, 반대로 가격이 내리면 많이 살려고 한다. 가격과 수요에 관한 경제이론은 두 변수간의 음의 관계를 설정
(2) 수학적 모형
: 우하향하는 수요곡선 (가격과 수요의 반비례 관계)
linear nonlinear
두 변수의 관계가 linear 로 가정하면 다음의 관계가 성립되고
: 선형수요함수
: intercept
parameter
: 기울기
: dependent (종속변수, 피설명변수)
: independent (독립변수, 설명변수)
모형은 두 변수의 관계에 대한 just qualitative statement가 된다. 이때 선형이 아니라 비선형임을 가정하면 모형의 설정은 더욱 복잡하게 되는데 이는 함수의 구체적인 형태를 모르면 기술적으로 매우 어렵다.
(3) 계량모형의 관계는 수학적 모형과 달리 다음과 같은 특성이 서로 다르게 된다.
exact inexact
deterministic ⇒ statistical
relationship relationship
: ramdom error term (오차항)
실제 data의 산포도 (scattergram)
계량모형은 현실 data에서 개연성이 매우 높은 확률적 statement를 의미한다.1
(4) 자료의 수집
?time - series (daily, weekly, monthly, yearly, 5 yearly …)
경제통계연보, 조사통계월보 등과 같은 통계집과 internet망을 통하여 구할 수 있음. 시간에 따른 변화를 모형화 하는데 주로 사용된다.
?cross - section (개인, 가구별, 개별기업, 개별국가, …)
survey등의 기법을 통하여 조사하여 개인, 기업 등의 자료를 직접 구하거나 각국의 자료를 UN, OECD 등의 자료로부터 구하여 모음. 개별 의사결정주체들의 행위를 분석하는데 주로 사용된다.
?panel data (pooling)
시계열자료와 횡단면 자료를 동시에 구할 수 있는 경우로써 개별의사결정 주체들의 시간에 따른 변화를 모형화하는데 사용된다.
(5) 파라메터의 추정
설정된 계량모형의 파라메터()를 추정하면 이를 기초로 함수의 구체적인 형태를 알아낼 수 있게 된다.
(6) 가설의 검정
경제이론에 따라 다양한 가설을 설정할 수 있다. 예를 들면
등과 같다.
: :
이 모형과 관련된 다양한 가설들을 통계적 추론 절차에 따라 가설의 채택 및 기각여부를 검정할 수 있음.
(7) forecasting (예측)
추정된 계량모형을 기초로 현실경제에서 자연과학의 실험과 같은 모의분석이나 예측을 할 수 있음. 예를 들면
?만일 P=4.5 이면 Q는 얼마나 demand 하는가?
?공급이 50으로 고정되어 수요량을 맞출 수 없다면 가격은 얼마가 되어야 하는가?
등과 같은 여러 가지 실험이나 모의분석, 미래에 대한 예측을 할 수 있다.
제 1 장 회귀분석의 성격
(처음으로)
1. 회귀분석의(regression analysis)의 성격
회귀분석 용어의 원천과 정의
Galton은 당시의 논문에서 키가 큰 부모의 아이들이 키가 크고 키가 작은 부모의 아이들은 키가 작다는 사실을 통계적인 방법을 통하여 밝혔다. 그러나 일정한 키의 부모에게서 태어나 아이들의 평균신장은 전체 인구의 평균신장을 향해 회귀하는 경향이 있음을 밝힌 데서 출발했다. 그러나, 현대적 해석은 다음과 같다. “회귀분석이란 한 변수, 즉 종속변수가 하나 이상의 다른 변수, 즉 설명변수에 어떻게 의존하고 있는가를 분석”
?회귀분석을 상정할 수 있는 여러 가지 상황을 예로 들어보자.
예-1) 아버지의 신장과 아들의 신장 예-2) 연령과 신장
예-3) 개인소비지출과 가처분소득 예-4) 독점기업의 가격과 수요의 반응
예-5) 화폐임금 변화률과 실업률 예-6) 광고지출과 상품수요
예-7) 농작물수확과 (기온/강우량/일조량/비옥도)
: multi variables relationship
통계적 관계와 확정적 관계
?확정적 관계 : 반지름과 원의 넓이
월일과 낮의 길이
?통계적 관계 : 위의 예1~7
계량경제학은 확정적 관계보다는 통계적 관계에 관심을 둔다. 변수간의 통계적 관계가 있음에는 분명하지만 확률변수(random variable)의 개입으로 불확실, 비결정적인 요소를 갖고 있다.
용어의 대비
종속변수(dependent variable)
독립변수(independent variable)
피설명변수(Explained variable)
설명변수(Explainatory variable)
예측된변수(Predictand)
예측변수(predictor)
피회귀변수(regressand)
회귀변수(regressor)
반응변수(respouse)
통제변수(control variable)
내생변수(endogenous)
외생변수(exogenous)
C-S
T-S
자료의 종류와 하첨자
?시계열 자료 (time-series data): 하첨자 사용; 로 표시
?횡단면 자료 (cross-sectional data): 하첨자 사용; 로 표시
?패널 자료 (panel data) : 하첨자 사용; 로 표시
제 2 장 2-변수 회귀분석: 기본개념
(처음으로)
: 회귀분석에서 가장 단순한 형태인 2-변수 모형에 대하여 설명
1. 모집단 회귀함수(Population Regression Function ; PRF)의 개념
예) 소비함수
모집단 전체가 60명인 경우 이들의 소득과 소비지출의 자료를 수집하여 분석하는 경우를 상정해 보자. scattergram을 그려보면 다음과 같다고 하자.
그림설명
?같은 소득수준의 가계의 경우 소비지출에 크고 작은 차이는 있지만 소득이 증가할수록 소비지출도 평균적으로 증가하고 있음이 쉽게 관찰된다. 즉 소득이 증가함에 따라 소득이 주어졌다는 전제하에서 소비의 조건부 평균값이 증가하고 있음을 보이고 있다.
?이러한 경향을 표시해주는 선이 모집단 회귀함수(Population Regression Function: PRF)이다. 그림에서 각 점은 모집단에 대한 실제 관찰치를 표시한 것이고, PRF선상의 점은 소득이 어떤 값으로 주어졌을 때의 소비의 조건부 평균값을 의미한다.
모집단 회귀함수의 개념
?모집단 회귀함수를 수식으로 표시하면 다음과 같다.
의미 : 가 주어졌을 때 를 조건으로 하는 는 의 함수이다.
?함수의 형태를 선형(linear)라고 가정한다면 explicit form으로 나타낼 수 있다.
: 선형모집단 회귀
: 절편 : 기울기
........ 이들을 회귀계수(Regression Coefficient) 혹은
모수(parameters)라고 한다.
⇒ 회귀분석이란 모집단 회귀함수를 추정하는 것인데, 이는 Y와 X에 관한 자료를 가지고 과 의 값을 추정하는 것이다.
선형(Linear)의 의미
계량모형에서 선형의 의미는 두 가지로 구분된다. 변수에 대한 선형과 모수에 대한 선형으로 나뉜다.
?변수에 관한 선형
선 형
비선형
?모수에 관한 선형
선 형
선 형
선 형
비선형 : 난이도가 매우 높은 계량모형이 됨.
2. PRF의 확률적 성격
위의 예로 들은 소비함수에서 가계소득의 증가는 가계소비의 증가를 의미하는 관계임을 암시하고 있다. 하지만 실제의 data를 관찰해보면 정확하게 함수적인 대응관계가 아니라 다만 조건부 기대치 주위에 모여있음을 알 수 있다. 이를 이해하기 위해서는 확률적인 공간에서 해석이 필요하게 된다.
편차(deviation)
?편차는 가 조건부 기대치로부터 떨어져 있는 거리 ( 로 표시)
?PRF와 관찰치간의 수직거리를 나타내는 는 확률변수(random variable)가 된다. 따라서 양의 값, 음의 값 모두를 가질수 있으며, 관찰치 각각에 대하여 n개의 를 가지게 된다.(i=1,2,...n)
?는 확률적교란항 (stochastic disturbances) 혹은 확률적오차(stochastic error term)라고 부르는데 다음과 같은 구조를 갖는다.
: 관찰된 자료 (소비)
: 가 주어졌을 때 의 기대치이며 체계적, 확정적 요소라고 할 수 있다.
: 교란항으로써 확률적, 비체계적 요소, 우연적 요소라고 할 수 있다.
소득이외에 소비에 영향을 주는 요소 (가격, 기온, 기후 등…)
예) 소비함수를 다음과 같다고 할 때
소득( )가 80일 때 소비( )가 55인 가구와 85인 가구가 있다면
가구 1 :
가구 2 : 가 된다.
확률적 교란항의 중요성
소비는 소득의 함수이라는 경제이론에 대하여 계량모형을 설정할 때 는 모형에서 생략되었으나, 에 영향을 주는 모든 변수들을 대신하고 있다고 할 수 있다. 계량모형이 현실에서 존재하는 모든 요인을 완전히 고려할 수 있으면 확률적 교란항은 필요가 없다. 그러나 다음등의 이유로 모든 변수를 다 포함하는 완전모형은 존재하지 않거나, 존재하더라도 가능하지 않다.
?계량모형이 모든 변수를 다 포함하지 못하는 이유
ⅰ) 이론의 불완전성
ⅱ) 자료확보의 어려움
ⅲ) 비체계적이거나 무작위적인 주변변수는 영향력이 미미하므로 핵심변수들로만 모형을 구성
ⅳ) 인간행위의 무작위성
ⅴ) 측정오류
ⅵ) 절약성의 원칙
ⅶ) 함수형태의 오류
3. 표본 회귀 함수 (Sample Regression Funtion : SRF)
모집단 회귀 → 표본집단 회귀
(PRF) (SRF)
?개념 : 모든 모집단의 자료를 다 조사하는 것은 불가능한 경우가 대부분이고 가능하더라도 시간과 비용이 매우 많이 든다. 따라서 다음의 도식과 같은 추측통계학의 논리체계에 따라 분석하게 된다.
모집단 모수
? ?
표본 ? 통계량
?PRF를 추정한 모집단 전체에서 일부를 표본으로 두 개 추출하는 경우 두 개의 서로 다를 개연성이 있는 SRF가 존재할 수 있다. 뿐만아니라 n개의 표본을 추출하게 되면 n개의 SRF가 존재할 수 있다. 우리는 우리가 추출한 표본에 기초하여 모집단의 모수를 추정하는데 추측통계학의 기법을 이용하게 된다. (일상생활에서의 예를 생각해보자)
?PRF 와 SRF
PRF :
SRF :
: 의 추정량
: 의 추정량
: 의 추정량
추출된 포본에서 계산되는 추정량 또는 표본통계량으로부터의 정보를 사용하여 모집단의 모수를 추정하는 과정을 의미한다.
?다른 표기 방법
PRF :
SRF :
: 잔차항 (residual term) 은 의 추정치
?회귀분석은 SRF를 기초로 하여 모집단의 PRF를 추정하는 과정이다. 왜냐하면 모든 통계자료는 모집단에 대한 하나의 표본에 불과하기 때문이다. 모집단의 회귀함수인 PRF와 표본에 기초하여 추정된 SRF가 서로 다른 점을 매우 과장하여 그리면 다음과 같다.
?notation
?그림에서는 A점보다 우측은 과대추정 ()
좌측은 과소추정 ()
4. further study
?실제 자료에서 SRF를 어떻게 찾을 것인가? (3장 회귀모형의 추정)
?SRF를 찾아낸다면 찾아낸 SRF가 우리가 알고자 하는 PRF와 일치하는가를 어떻게 알 수 있는가? (4장 계량모형의 통계적 추론)
digression: 합셈, 곱셈 연산자와 기대치 및 분산 정리
(처음으로)
1. 합셈연산자:
definition:
properties
?
?
?
?
2. 곱셈연산자:
definition:
properties
?
?
3. 기대치:
definition:
properties
?
?
?
?
but
?
?
4. 분산 :
definition:
?
?
?
?
?
?
제 3 장 통상최소자승법(Ordinay least squares ; OLS)
(처음으로)
1.통상최소자승법 (Gauss)
수집된 자료로부터 SRF를 구하기 위하여 변수들간의 관계를 나타내는 모수를 찾아내는 가장 보편적인 방법
PRF와 SRF
?PRF와 SRF는 다음과 같이 표시된다.
PRF :
SRF :
?우리가 모을 수 있는 자료는 모집단이 아니라 표본이기 때문에 표본을 사용하여 SRF를 찾아내고, 이를 기초로 진정한 PRF를 추정해내야 한다. 그러면
- 어떻게 PRF를 추정해 낼 것인가?(3장)
- 이렇게 추정된 PRF가 진정한 PRF를 잘 추정해낸 것인지 어떻게 알 수 있는가?(4장)
최소자승법
?SRF를 결정하는 과정이 최소자승법이다. 이를 자세히 살펴보면 다음과 같다.
잔차는 다음과 같이 표시된다.
?? 잔차 은 Y의 실제값과 Y의 추정치와의 차이를 의미
그림에서 각 잔차 의 거리의 합이 최소가 되는 함수를 찾으면 그 함수가 각 점들을 가장 대표하는 값이 된다. 이 점을 찾기 위하여 최소자승 기준이 필요하다.
최소자승 기준이라함은 위의 그림에서 각 의 자승의 합을 최소화 하는 을 찾는 과정을 말한다, 즉
minimise
?왜 자승인가?: 자승을 하지 않으면 이기 때문이다.
최소자승법 : How to minimise
think about
min
… 정규방정식 (normal equation)
여기서 과 은 unknown
에 를 곱하고, 에 을 곱하면
을 하면
에서
와 에서 우리는 , , , , 을 계산하면
과 을 구할 수 있게된다.
이것이 최소자승 추정량 (OLS 추정량)이다.
예) 전산실습 1에서 추정한 자료와 추정결과가 어떤 과정을 거쳐 생산되었는지 알아보자. 판매량(SALES:)과 광고량(AD:) data 가 다음과 같다.
연도(관찰치 번호)
1991
163
173
28199
29929
1995
178
221
39338
48841
1996
212
200
42400
40000
1997
202
240
48480
57600
1998
224
227
50848
51529
계
979
1,061
209,265
227,899
이를 최소자승법으로 구한 의 공식에 대입하면 다음과 같다.
따라서 추정결과는 다음과 같이 정리된다.
OLS 추정량의 수치적 특성
?OLS 추정량은 와 의 관측 가능한 자료로부터 쉽게 추정가능
?OLS 추정량은 점 추정량이다.
?회귀선의 특성
① 회귀선은 와 의 표본평균을 통과한다.
② 잔차 의 기대치 즉 평균값은 0이다.
: 그림에서 설명
③ 과 는 서로 독립적이다. 상관관계가 없다.
2. 최소자승법을 위한 가정들
: 최소자승법으로 추정한 이 실제모수값 값에 얼마나 가까운 값인지 통계적으로 추론하기 위해서는, 와 의 특성에 관한 가정을 이해해야 한다.
: PRF: 에서 는 와 에 의존한다. 따라서 와 에 관한 기본 가정과 통계적 성질을 알아야 에 관한 통계적 추론이 가능하다.
가정 1. 설명변수 는 비확률적 (non stochastic)이다.
?설명변수인 가 비확률적이라는 말은 모형을 다루는 동안 는 고정된 값을 가진다는 의미이다. 는 표본이 설정되는 단계에서 모형 외부에서 주어지는 값임을 의미한다.
?회귀분석이 조건부 회귀임을 상기할 필요가 있다. 즉, 설명변수 의 주어진 값을 조건으로 하는 회귀분석이다.
가정 2. 오차항 의 평균값은 0임
: 일단 의 값이 주어졌을 때, 확률적 오차항 의 기대치는 0이다.
?PRF선상의 점 을 주위로하여 관찰되는 각 점들이 매우 많이 존재한다고 할 때, 이 편차는 양일 수도 있고 음일 수도 있다. 그러나 의 주위에 많이 분포하고 에서 떨어진 곳에는 적게 분포하게 된다. 이 모든 편차를 모두 합하면 0이 되기 때문에 조건부 기대치는 0이 된다.
가정 3. 각 의 분산은 일정하다. 즉 homoscedastic
?각 관찰치마다 존재하는 는 하나의 확률변수이므로 평균과 분산을 가진다. 가정 2에 의해 평균은 0가 되지만 분산을 각기 다를 수도 있다. 가정 3은 이 각각의 가 분산이 모두 같다고 가정한다.
- homoscedasticity(동분산성)
- hetero scedasticity(이분산성)
가정 4. 두 개의 서로 다른 오차항은 상관관계가 없다.
?각기 다른 i 번째 관찰치와 j 번째 관찰치의 는 서로 상관관계가 없다.
즉, no autocorrelation을 의미한다.
positive negative no correlation
위의 4가지 가정은 왜 필요한가?
?지금까지의 진도에서는 위의 가정들이 만족된다고 보고 진행한다. 가정이 만족되어야 최소자승추정법이 타당하게 된다. 그러나 교재의 10장 이후에는 모두 위의 가정들이 만족되지 못하는 경우를 다룬다.
3. 최소자승 추정치의 정확도 또는 표준오차
?추정량 과 가 얼마나 믿을만 한가를 측정할 척도가 되며, 통계에서는 추정치의 정교함을 추정치와 표준오차(standard error)로 측정한다.
예) 추정치의 정교함을 측정하는 방법이 왜 표준오차인가를 예를 들어보자. 통학시간의 평균이 서로 같은 버스와 지하철이 표준오차가 서로 다르다면 각각의 예정시간 추정치의 정교함은 다를 수 밖에 없다.)
?분산의 정의에 의해 의 분산을 구하면
: 의 분산
이때 로써 각 관찰치의 평균과의 편차를 표시함.
? 의 분산과 표준오차 공식에서 을 제외한 나머지 변수는 등인 모두 자료에서 구해질 수 있다. 여기서 자료로부터 구할 수 없는 값은 뿐이다.
?은 의 분산인데 가 알려져 있지 않기 때문에 대신에 추정치인 을 불가피하게 사용하게 된다. (계수에 대한 검정을 정규분포가 아니라 t 분포를 사용하는 이유가 됨)
추정치 : 의 OLS 추정량
: 자유도 (degree of freedom)
: 잔차자승의 합 (Residual sum of Square : RSS)
: standard error of the regression
: 추정된 회귀선과 Y 값 사이의 standard deviation을 의미
예) 앞의 예를 다시 들어보자. 전산실습 1에서 추정한 자료와 추정결과가 어떤 과정을 거쳐 생산되었는지 알아보자. 판매량(SALES:)과 광고량(AD:) data 가 다음과 같다.
연도(관찰치 번호)
1991
163
173
1536.64
28199
29929
1995
178
221
77.44
39338
48841
1996
212
200
145.84
42400
40000
1997
202
240
772.84
48480
57600
1998
224
227
219.04
50848
51529
계
979
1,061
2,751.8
209,265
227,899
이를 최소자승법으로 구한 의 공식에 대입하면 다음과 같다.
따라서 추정결과는 다음과 같이 정리된다.
이번에는 추정치의 표준오차를 공식을 사용하여 구해보자.
추정결과를 사용해서 구한 actual-fitted-residuals 표를 구하면 다음과 같다.
연도(관찰치 번호)
1991
163
174.154
-11.1538
124.407254
1995
178
200.659
-22.6594
513.4484
1996
212
189.063
22.9368
526.09679
1997
202
211.151
-9.15115
83.7435
1998
224
203.973
20.0274
401.09675
계
979
1648.794
따라서 추정식은 다음과 같이 표현된다.
( )속은 s.e.
4 가우스-마코프 (Gauss-Makov) 정리
?OLS 추정량 가, OLS 의 가정을 만족할 때, 불편추정량이면서 최소분산을 갖는 BLUE (Best Linear Unbiased Estimator) 임을 증명하는 중요한 정리이다. OLS의 기본 가정들이 충족될 때 OLS가 다른 어떤 추정법 보다 가장 탁월함을 증명한 정리이다.
5 결정계수 : 적합성의 측정 (goodness of fit)
?추정결과를 해석하는데 필요한 회귀계수와 표준오차를 살펴보았다. 이 절에서는 추정된 회귀선이 관측된 표본에 얼마나 잘 들어맞는가를 측정하는 적합성(goodness of fit)을 살펴보자.
?perfect fit : 실제로 일어나기는 매우 어렵지만 만일 모든 관찰치가 회귀선 상에 놓인 경우를 말하는데 완전한 회귀선이라고 할 수 있다. 일반적인 경우라고 볼 수 없다.
?모든 관찰치는 회귀선으로부터 잔차( )만큼 떨어져 있는데 이를 설명할 수 있는 overall measure 가 필요하다.
⇒ (r-square) : 결정계수
?회귀선을 다시 상기해 보자.
: variation in from its mean value
: variation in explained by from its mean value
: unexplained or residual variation
?자승화(sum of squares)란 변수를 자승해서 합한 것을 말한다.
에 대한 자승화는 :
자승화의 개념을 위의 variations에 대입해 보면 다음과 같은 개념을 만들 수 있다.
라고 자승합을 구하자
이를 다시 쓰면
: total sum of squares
: explained sum of squares
: residual sum of squares
?양쪽을 TSS 로 나누면
이때 결정계수 은 다음과 같이 정의된다.
또는
?결정계수 의 특성은 다음과 같다.
ⅰ) 은 non negative
ⅱ) ; 완벽한 적합
설명변수는 전혀 설명력이 없음
예) 다시 광고와 판매량의 예로 돌아가자.
연도(관찰치 번호)
1991
163
173
1536.64
1075.84
28199
29929
1995
178
221
77.44
316.84
39338
48841
1996
212
200
145.84
262.44
42400
40000
1997
202
240
772.84
38.44
48480
57600
1998
224
227
219.04
795.24
50848
51529
계
979
1,061
2,751.8
2,488.8
209,265
227,899
??해석: 투여한 광고액은 총판매량 변화의 33.8%를 설명하고 있다.
제4장 정규분포 가정 : 고전적 정규선형 회귀모형
(처음으로)
?이 장에서는 앞에서 설명한 OLS의 4가지 가정에다가 하나의 가정을 더 첨가한다. 이 가정은 표본의 정보에서 추정된 SRF로 모집단의 PRF를 통계적으로 추론하기 위하여 필요하다. 통계적 추론을 위하여 오차항의 분포에 대한 가정이 필요하다.
가정 5.
PRF 에서 오차항 는 평균 0, 분산이 인 정규분포를 따른다.
즉,
왜 이 가정이 필요한가?
?앞장에서 도출한 OLS추정량 은 BLUE 이지만 하나의 점 추정량이다. 이들 점 추정량이 모집단의 모수와 일치하는지 검정하는 일이 필요하다. 즉, 우리가 필요한 것은 을 이용해 모집단의 를 추론해 내는 것이라고 할 수 있다. 다시 말하면 SRF를 사용하여 PRF에 대하여 추론하는 것이다.
?가설검정 ( 에 대한)을 하기 위해서는 교란항 의 확률분포를 규정해야 한다. 왜냐하면 최소자승법으로 구한 은 의 선형결합이므로 은 의 선형결합으로 볼 수 있다. (부록 3H.2) 위의 가정 5는 교란항 의 분포가 정규분포하는 것으로 가정하는 것을 의미한다. 정규분포는 가장 일반적인 교란항의 질서를 대표하는데 큰 무리가 없기 때문에 매우 무난한 가정이라고 할 수 있다. (정규분포가 아닌 경우는 어떤 경우인가?)
?의 의미: 에는 영향을 주지만 모형 내에는 포함되지 않는 변수들은 가 대표하게 되는데 포함되지 않는 변수의 수가 많아지면 정규분포를 따르게 된다. … 중심극한 정리 (central limit theorem)
?정규분포를 가정하는 또 다른 이유는 이 가정 下 에서 OLS 추정량의 분포를 쉽게 유도할 수 있기 때문이다.
1. 정규분포 가정하에서 OLS 추정량의 특성
Gauss - Markov theorem
: OLS 추정량이 선형불편 추정량 가운데 가장 분산이 작은
최량 선형 불편 추정량 (Best Linear Unbiased estimators : BLUE)이다.
① 불편 추정량
② 최소분산 추정량
③ 일치 추정량 : 표본의 크기가 무한히 커지면 모수값에 접근한다.
의 특성
평균 :
분산 :
정규분포의 특성에 의해
… 표준정규분포
의 특성
평균 :
분산 :
정규분포의 특성에 의해
… 표준정규분포
2. 통계적 추론 review
표준오차(standard error)
?통계적 추정량으로 모수에 대하여 통계적으로 추론하는 것의 정확도는 무엇으로 판단하는가?
?확률변수 : 도박의 사례, 세상에 존재하는 수 많은 확률변수, 대부분의 경제변수 등이 모두 해당하는데, 확률변수는 확률분포를 하고 확률분포에는 반드시 평균과 분산이 있다.
?추정량의 신뢰도를 판단하는 지표로 표준오차를 사용한다.
예) 통학수단으로 전철과 버스가 있다고 하자. 통학시간은 버스와 전철이 공히 평균 30분이 걸린다고 하자. 두 개의 통학수단에 대하여 몇 일간 타보고 통학시간을 관찰한 결과가 다음과 같다.(표본의 추출)
버스 전철
25 29
32 30
21 28
42 33
평균 30 30
분산 254 14
s.e. 15.94 3.74
??학교까지 걸리는 시간의 추정량은 전철과 버스가 공히 30분이어도 그 신뢰도는 다르다. 버스가 전철에 비하여 s.e.가 크기 때문에 전철의 경우가 신뢰도가 더 크다고 할 수 있다.
정규분포(normal distribution)
?우리는 모집단의 분포를 알 수 없고 단지 표본만을 관찰하기 때문에 모집단의 분포에 대한 가정이 필요하다. 정규분포인지 아닌지, 지수분포인지, 균등분포인지, 감마분포인지,.....알 수가 없다.
?그럼에도 불구하고 정규분포를 가정하는 이유는 대부분의 확률변수가 특별한 사유가 없는 한 정규분포를 한다고 볼 수 있다. 정규분포이외에 특별한 사유가 있는 경우에는 이에 대한 특별한 treatment가 필요하다.
?정규분포는 수학적 성질이 매우 우수하다. 다시말하면 표준화 정규분포를 통해 확률의 계산이 용이하다. 평균과 분산을 알면 모든 분포의 값이 표준화 정규분포를 통해 계산할 수 있다는 장점이 있다.
표준화 정규분포(standardized normal distribution)
?정규분포는 평균과 분산의 크기에 따라 다양한 모양을 갖는다.
?분산은 같은데 평균이 다른 경우
?평균은 같은데 분산이 서로 다른 경우
?정규분포만으로는 이들의 확률을 계산하는 일정한 규칙을 찾을 수 없다. 각 분포마다 다른 확률의 면적을 갖는다. 이를 해결하기 위하여 표준화 정규분포로 변환한다.
⇒ 표준화 정규분포로 변환하면 하나의 미리 계산된 표준화 정규분포표에서 확률을 계산할 수 있게 된다.
: 평균을 빼서 0을 중심으로 옮기고 분산으로 나누어서 퍼짐성을 1로만듦
3. 정규분포와 관련된 확률분포 : 분포 정리(증명생략)
정리 1
확률변수 이 상호독립적이면서 각각 정규분포를 따른다면
즉 , 확률변수 의 선형결합 도
을 따른다
예) , 이들의 선형결합 는
정리 2
확률변수 이 상호독립적이고, 모두 표준정규분포를 따른다면,
, 은 자유도가 인 카이자승 분포를 따르고,
이는 이라 한다.
: 독립이고 표준정규분포하는 확률변수의 자승합은 자유도가 더해지는
변수들의 개수를 자유도로 하는 카이자승 분포를 한다.
정리 3
확률변수 이 상호독립적이면서 각각 자유도가 인 카이자승 분포를
따른다면, 도 역시 자유도가 인 카이자승 분포를 따른다.
정리 4
이 표준정규분포를 따르고, 즉 , 다른 확률변수 가
자유도가 인 카이자승 분포를 하며 과 가 독립이라면,
는 자유도가 인 분포를 따른다.
이때 자유도가 무한히 커지면 분포는 표준정규분포에 접근한다.
정리 5
과 서로 독립이고 각각 자유도가 , 인 카이자승분포를 따른다면
는 자유도가 , 인 분포를 따른다.
정리 6
자유도가 인 분포를 따르는 변수의 제곱은 분자의 자유도 ,
분모의 자유도 인 분포를 따른다.
즉,
제5장 구간추정과 가설검정
(처음으로)
?최소자승법으로 구한 모수의 추정치의 신뢰도를 검정하는 절차를 다룬다.
remind
추정량 과 의 분포
1. 가설검정
가설검정이란?
?전산실습과제 1의 예에서
?귀무가설(null hypothesis)을 다음과 같이 설정한다.
귀무가설은 일 때 모집단의 모수가 0이라는 가설을 설정하는 것을 말한다.
?귀무가설은 가장 기본이 되는 가설이고 모형의 설정이 합당함을 인정받기 위하여 최우선적으로 검정되어야 하는 가설로써 “변수가 변수에게 아무런 영향을 주지 못하는게 아닌가?(no relationship)”를 질문하는 가설이다. 만일 귀무가설이 성립되면, 더 이상 , 등의 가설은 진행할 필요도 없기 때문이다. 다시 말하면 귀무가설이 성립된다는 것은 모형에서 변수를 포함할 아무런 이유가 없어지고 모형의 수정이 불가피함을 의미한다.
?반대로 대립가설(alternative hypothesis)은 다음과 같다.
?위의 두 가설중 어느 것을 선택하는가? 즉, 귀무가설을 채택할 것인가 기각할 것인가
하는 것은 값의 numerical value로 결정되는 것이 아니라 formal test procedure가
필요하다.
2. 통계적 가설검정의 방법 및 절차
(처음으로)
소득 - 소비의 한 예제 ( 소비, 소득)를 이용, 아래와 같은 결과를 얻었다.
(6.4138) (0.0357)
t 〓 (3.8128)+ (14.2605)
이를 이용해서 어떤 이야기를 할수 있을까?
How do we test?
?test 방법은 두가지 approaches가 가능하다. 아래의 둘은 동일한 결과를 생산하기 때문에 어느 것을 사용해도 좋으나 첫 번째의 통계량 접근법이 상대적으로 용이하다.
① 의 가설에 대한 통계량 검정법
② 신뢰구간 접근법
의 분포
?추정량 의 분포는 다음과 같다.
이 정규분포를 표준화하면
… 표준 정규분포
?표준정규분포 합이 밝혀졌기 때문에 귀무가설 : 에 대해서 가설검정이 가능해졌지만 하나의 문제가 발생한다. 즉, 우리는 모집단의 의 분산인 을 모른다는 것이다.
?true 를 대신하여 을 사용할 수밖에 없다. 이와 같이 모집단의 분산이 알려져 있지 않고 모집단의 분산 대신 표본의 분산을 사용하는 경우에는 t 분포를 따른다.(Gausset에 의해 증명됨)
⇒ 자유도가 n-2인 t분포를 따름
: t분포를 이용하여 가설검정할 수 있음.
통계량 검정법(t-test)
?통계량(test statistic)을 통한 검정은 귀무가설에 기초한 통계량의 표본분포를 이용하여 검정한다. 검정통계량 t 는 다음과 같다.
만일 귀무가설이 는 특정한 숫자 (예 ) 이면 검정통계량 t는 다음과 같다.
예 1) 이면 (전산실습과제 1에서), 이면 (양측검정)
t-table 을 보자
자유도 = n-2=5-2=3
95%신뢰수준
이때 이므로 양측검정을 해보면 는 95%의 임계치 3.18보다 작다. 따라서 우리는 귀무가설 를 기각할 수 없다. 즉 통계적으로 볼 때 이 된다.
⇒ AD는 SALES에 영향을 줄 수 없다는 가설을 기각하지 못함
⇒ 모형의 설정이 타당하지 못함(새로운 모형의 설정이 필요)
⇒ 왜 그런가?
예 2) 그러나 (소비함수의 추정에 관한 모형)에 대하여 양측검정을 해보자.
t-table 을 보자
자유도 = n-2=17-2=15
신뢰수준 95%
이때 는 5% 유의수준의 t 임계치 = 2.131 보다 크기 때문에 우리는
를 기각할 수 있다.
⇒ 소득은 소비에 영향을 줄 수 없다는 귀무가설을 기각할 수 있으며
⇒ 소득이 소비에 영향을 준다는 대립가설()를 채택
⇒ 모형의 설정이 타당하다는 의미가 된다.
예 3) 전산실습과제 1에서 이고, 로 설정하여 단측검정 하여보자.
: type 1 에러를 범할 확률을 양쪽으로 분산하지 않고, 한쪽으로만 집중
다시 전산실습과제 1로 돌아가자. (여기서는 광고가 판매량에 negative할 것이라고
볼 수는 없기 때문에 오른쪽만 검정)
t-table 을 보자
자유도 = n-2=5-2=3
신뢰수준 95%
이때 이므로 단측검정인데 는 5% 유의수준의 t 임계치 = 2.353 보다도 작기 때문에 우리는 를 기각할 수 없다.
⇒ AD는 SALES에 영향을 줄 수없다는 가설을 기각하지 못함
⇒ 단측검정의 경우에도 모형의 설정이 타당하지 못함
(새로운 모형의 설정이 필요) 그림 설명
예 4) 전산실습과제 2의 소비함수에서 에 대한 가설검정을 양측검정으로 해보자. 귀무가설이 reject 된 전산실습과제 2의 소비함수의 추정에서 구체적인 값을 갖는 가에 대하여 가설검정해보자.
t 값이 5%수준의 임계치인 2.131 보다 작으므로 우리는 귀무가설을 reject 할 수 없다. 따라서 를 채택 할 수 있다.
예 5) 예 4의 예를 인지 가설검정하라
?“reject 할 수 없다”의 의미
표본의 증거를 기초할 때 가설을 reject 할 없다는 의미이지 귀무가설이 정말로
옳은 진실이라고 단언하는 것은 아니다. 법정에서 증거들에 기초해 볼 때 무죄라고
단언 할 수 없지만 “유죄가 아니다” 혹은 “유죄라고 볼 수 있는 증거가 없다”라고
판결하는 것과 같은 논리이다.
신뢰구간 접근법
?전산실습과제 1로 돌아가서 인데 유의수준 , 양측검정 (∵)을 해보자.
: 자유도 3인 t값이 (-3.182, 3.182)의 구간에 있을 확률이 0.95임을 나타냄
?t값의 정의를 대입하면
or
⇒ 에 대한 95% 신뢰구간을 제공
?전산실습과제 1의 예를 대입하면
⇒ 에 대한 95% 신뢰구간
?귀무가설 는 에 대한 95% 신뢰구간내에 포함되기 때문에 우리는
귀무가설을 기각(reject)할 수 없다.
⇒ AD가 SALES에 영향을 줄 수 없다는 귀무가설 기각할 수 없다.
⇒ 귀무가설이 채택되어 모형에 AD가 의미있는 변수로 포함된 타당성을 입증하지
못함
(과제 1) 의 구간 추정과 를 가설검정하라.
(과제 2) 전산실습과제 2를 95%수준에서의 신뢰구간을 구하라.
3. 가설검정의 의미
귀무가설과 2-t 법칙
① 귀무가설 인 경우이고
② 자유도가 20이상이며
③ 유의수준이 0.05라면 t 값의 절대값이 2보다 크면 귀무가설인 를 기각한다.
⇒ 통계적으로 유의한 이론임을 입증
유의수준 α의 선택
계량경제학의 입문단계에서는 1%, 5%, 10% 가운데 5%의 유의수준을 주고 선택
이를 설명하기는 매우 힘듬 - 통계적 의사결정 이론의 이해
연구자의 주관이 개제
정확한 유의수준 P 값
: P값은 귀무가설을 기각할 수 있는 가장 낮은 유의수준, 즉 제1종의 오류를
저지를 확률을 나타냄
?Computer Output에서 계산된 의 P값이 0.002 하는 의미는
이런 가설검정을 1,000번 했을 때 2번정도 오류를 범할 수 있음을 의미
?관계 : 추정된 모수에 대하여 s.e. 가 작을수록 - t 값은 클수록 - P 값은 작다.
4. 회귀분석의 결과를 보고하는 형식
소득 - 소비 예제
(6.4138) (0.0357)
t 〓 (3.8128)+ (14.2605)