📗독립인 자료(Independent data)
비교하고자 하는 두 집단의 측정치들이 서로 다른 개체에서 얻어진 것으로 한 집단의 측정치가 다른 집단의 측정치에 영향을 주지 않는 경우에 얻어진 자료로 각 개체들은 서로 독립이어야 한다.
💡대표적인 통계 기법
- 모수적 기법 : T-test
- 비모수적 기법 : Wilcoxon rank sum test(Mann-Whitney U test), Median test
💡독립 이 표본 t-test
명칭 그대로 두 개의 독립적인 모집단에서 추출된 표본을 이용하여 두 집단의 모평균을 비교하는 검정입니다.
대응 이표본 t-test는 한 그룹에게 A 약 투여 후 효과에 대한 전후 비교,
독립 이표본 t-test는 A 약고 B약에 대해 두 그룹을 나누어 효과 비교
독립 이표본 t-test는 등분산일 때와 이분 산일 때가 다름.
항상 t.test를 하기전에 두 집단이 등분산인지, 이분산인지 검사할 필요가 있음.
예시)
x1은 지혈제 A의 지혈시간, x2은 지혈제 B의 지혈 시간을 나타낸다.
x1=c(1.1,2.3,4.3,2.2,5.3)
x2=c(2.3, 4.3, 3.5)
우선 var.test를 통해서 두 집단의 분산이 등분산인지, 이분산인지 판단해야 한다.
var.test(x1,x2)
💡해석
- 가설 검정
- 가설
- H0 : 지혈제 A와 지혈제 B의 분산은 같다. [귀무가설]
- H1 : 지혈제 A와 지혈제 B의 분산은 다르다. [대립 가설]
- 유의 수준 α=0.05
- 검정 통계량 F = 2.8895
- P-value = 0.5465 > α --> 귀무가설을 채택함.
- 결론: 지혈제 A와 지혈제 B의 지혈 시간은 분산이 통계적으로 유의한 차이가 없었다.
- 가설
요약
여기서 P-value가 0.05보다 크다면 등분산, P-value가 0.05보다 작다면 이분산이다.
등분산이라면 var.equal=T, 이분산이라면 var.equal=F이다.
t.test(x1,x2,var.equal=T)
**💡해석**
- 추정
- 지혈제 A의 평균 지혈 시간은 3.04시간이며, 지혈제 B의 평균지혈시간은 3.36시간이다.
- 지혈제 A와 지혈제 B의 평균 지혈 시간차에 대한 95% 신뢰구간은 (-3.03,2.37)이다.
- 가설검정
- 가설
- H0(귀무가설) : 지혈제 A와 지혈제 B의 평균 지혈 시간은 같다.
- H1(대립 가설): 지혈제 A와 지혈제 B의 평균 지혈 시간은 다르다.
- 유의 수준 α=0.05
- 검정 통계량 =-0.29
- P-value는 0.7775>α --> 귀무가설을 채택함.
- 결론 : 유의 수준 5%에서 지혈제 A와 B의 평균 지혈 시간은 통계적으로 유의미한 차이가 없었다.
- 가설
만약 이분 산일 경우에도 검증을 해보자.(물론 지금 x1, x2는 등분산이다)
t.test(x1,x2,var.equal=F)
P-value > α 귀무가설을 채택. 따라서 이분산인 경우에도 지혈제 A와 지혈제 B의 평균 지혈 시간은 통계적으로 유의미한 차이가 없었다.
📕R프로그래밍을 이용해서 이 표본 T-test 구하기
T_test_2A=function(x,y){
n1=length(x); n2=length(y)
s1=var(x);s2=var(y)
F=s1/s2
pvalue=min(2*pf(F,n1-1,n2-1),2*(1-pf(F,n1-1,n2-1)))
cat(" ================ 이표본 분산비 검정 =================","\n","\n")
cat(" F= ",F,",P-value=",pvalue,"\n","\n")
xbar=mean(x);ybar=mean(y)
sp=sqrt(((n1-1)*s1+(n2-1)*s2)/(n1+n2-2))
T=(xbar-ybar)/(sp*sqrt(1/n1+1/n2))
pvalue=2*(1-pt(abs(T),n1+n2-2))
cat(" ================== 이표본 평균차 검정=================","\n","\n")
cat(" 등분산인 경우 : T=",T,"P-value=",pvalue,"\n")
df=(s1/n1+s2/n2)^2 / ((s1/n1)^2/(n1-1)+(s2/n2)^2/(n2-1))
T=(xbar-ybar)/sqrt(s1/n1+s2/n2)
pvalue=2*(1-pt(abs(T),df))
cat("이분산인 경우 : T=",T,"P-value=",pvalue,"\n")
}
T_test_2A(x1, x2) --> 지혈제 A와 지혈제 B의 지혈 시간 차에 대한 검정을 R프로그래밍을 이용해서 한 것.
실행결과 R에서 내장된 기능을 한 것과 P-value가 일치하는 것을 알 수 있다.
연습문제 1
새 제품과 기존제품 입력하기
new=c(50,48,47,45,46,43)
old=c(45,43,45,44,43,40)
새 제품과 기존 제품의 판매량 차이에 대한 분산 검정
var.test(new,old)
**💡해석**
- 가설 검정
- 가설
- H0 : 새제품과 기존제품의 분산은 같다. [귀무가설]
- H1 : 세제품과 기존제품의 분산은 다르다. [대립 가설]
- 유의 수준 α =0.05
- 검정 통계량 F = 1.7019
- P값 = 0.5737 >α => 귀무가설 채택
- 결론 : 새 제품과 기존 제품의 판매량은 분산이 통계적으로 유의미한 차이가 없다. (등분산임)
- 가설
이 표본 평균 차 검정(등분산)
t.test(new,old,var.equal=T)
💡해석
- 추정 : 새 제품의 판매량은 평균 46개이며, 기존 제품의 판매량은 평균 43개이다. 새제품과 기존제품의 판매량 차이에 대한 95% 신뢰구간은 (0.38, 5.95)이다.
- 가설검정
- 가설
- H0 : 새제품과 기존제품의 판매량은 같다. [귀무가설]
- H1 : 새제품과 기존제품의 판매량은 다르다. [대립 가설]
- 유의 수준 α = 0.05
- 검정 통계량 t = 2.5345
- P-value = 0.029 <α --> 귀무가설을 기각함.
- 결론 : 유의 수준 5%에서 기존 제품과 새 제품의 판매량은 다르다. 즉 새제품의 판매량이 기존 제품의 판매량보다 크다고 할 수 있다.
- 가설
연습문제 2
사료 1과 사료2 입력하기
one=c(54,60,66,53,62,61,42,50)
two=c(53,60,62,67,59,45,60,52,52)
사료 1과 사료 2의 이표본 분산 검정
var.test(one,two)
**💡해석**
- 가설
- H0 : 사료 1과 사료 2의 우유 생산량은 같다.
- H1 : 사료1과 사료2의 우유생산량은 다르다.
- 유의 수준 α = 0.05
- 검정 통계량 F= 1.3547
- P-value > α --> 귀무가설을 채택
- 결론 : 사료 1과 사료 2의 우유 생산량은 분산이 통계적으로 유의한 차이가 없다. (등분산이다)
📕이 표본 평균 차 검정(등분산)
t.test(one,two,var.equal=T)
💡해석
- 추정 : 사료 1의 우유 생산량 평균은 56개이고, 사료 2의 우유생산량 평균은 56.6개이다. 사료1과 사료2의 우유생산량 차이에 대한 95% 신뢰구간은 (-8.12, 6.7)이다.
- 가설검정
- 가설
- H0 : 사료 1과 사료 2의 우유 생산량은 같다. [귀무가설]
- H1 : 사료1과 사료2의 우유생산량은 다르다. [대립 가설]
- 유의 수준 α = 0.05
- 검정 통계량 T = -0.1905
- P-value = 0.8515> α --> 귀무가설을 채택한다.
- 결론 : 유의 수준 5%에서 사료 1과 사료 2의 우유 생산량 차이는 통계적으로 유의한 차이가 없다.
- 가설
✔정리
- 두 집단의 이 표본 분산검정을 통해서 P값이 0.05보다 크다면 등분산, 0.05보다 작다면 이분산이다.
- 이표본 평균 차 검정을 통해서 P값이 0.05보다 크다면 귀무가 설을 채택, 0.05보다 작다면 귀무가설을 기각한다.
'학교 > R프로그래밍' 카테고리의 다른 글
R프로그래밍 기말고사 정리 12- 이표본 모비율차 검정(prop.test) (0) | 2022.06.13 |
---|---|
R프로그래밍 기말고사 정리 10 - 이표본 검정(이변량데이터) (0) | 2022.06.13 |
R프로그래밍 기말고사 정리 08 - 이표본비율 (0) | 2022.06.13 |
R프로그래밍 기말고사정리 07 - 통계적 가설 검정 (0) | 2022.06.05 |
R프로그래밍 기말고사정리06- 일표본 유의성 검정 (0) | 2022.06.05 |