R프로그래밍 기말고사정리 09- 이표본 검정

2022. 6. 13. 19:32· 학교/R프로그래밍
목차
  1. 📗독립인 자료(Independent data)
  2. 💡해석
  3. **💡해석**
  4. 📕R프로그래밍을 이용해서 이 표본 T-test 구하기
  5. 연습문제 1
  6. **💡해석**
  7. 💡해석
  8. 연습문제 2
  9. **💡해석**
  10. 📕이 표본 평균 차 검정(등분산)
  11. 💡해석
  12. ✔정리

📗독립인 자료(Independent data)

비교하고자 하는 두 집단의 측정치들이 서로 다른 개체에서 얻어진 것으로 한 집단의 측정치가 다른 집단의 측정치에 영향을 주지 않는 경우에 얻어진 자료로 각 개체들은 서로 독립이어야 한다.

💡대표적인 통계 기법

  • 모수적 기법 : T-test
  • 비모수적 기법 : Wilcoxon rank sum test(Mann-Whitney U test), Median test

💡독립 이 표본 t-test

명칭 그대로 두 개의 독립적인 모집단에서 추출된 표본을 이용하여 두 집단의 모평균을 비교하는 검정입니다.

대응 이표본 t-test는 한 그룹에게 A 약 투여 후 효과에 대한 전후 비교,
독립 이표본 t-test는 A 약고 B약에 대해 두 그룹을 나누어 효과 비교

독립 이표본 t-test는 등분산일 때와 이분 산일 때가 다름.

항상 t.test를 하기전에 두 집단이 등분산인지, 이분산인지 검사할 필요가 있음.

예시)

x1은 지혈제 A의 지혈시간, x2은 지혈제 B의 지혈 시간을 나타낸다.

x1=c(1.1,2.3,4.3,2.2,5.3)
x2=c(2.3, 4.3, 3.5)

우선 var.test를 통해서 두 집단의 분산이 등분산인지, 이분산인지 판단해야 한다.

var.test(x1,x2)

💡해석

  • 가설 검정
    • 가설
      • H0 : 지혈제 A와 지혈제 B의 분산은 같다. [귀무가설]
      • H1 : 지혈제 A와 지혈제 B의 분산은 다르다. [대립 가설]
    • 유의 수준 α=0.05
    • 검정 통계량 F = 2.8895
    • P-value = 0.5465 > α --> 귀무가설을 채택함.
    • 결론: 지혈제 A와 지혈제 B의 지혈 시간은 분산이 통계적으로 유의한 차이가 없었다.

요약
여기서 P-value가 0.05보다 크다면 등분산, P-value가 0.05보다 작다면 이분산이다.

등분산이라면 var.equal=T, 이분산이라면 var.equal=F이다.

t.test(x1,x2,var.equal=T)

**💡해석**

  • 추정
    • 지혈제 A의 평균 지혈 시간은 3.04시간이며, 지혈제 B의 평균지혈시간은 3.36시간이다.
    • 지혈제 A와 지혈제 B의 평균 지혈 시간차에 대한 95% 신뢰구간은 (-3.03,2.37)이다.
  • 가설검정
    • 가설
      • H0(귀무가설) : 지혈제 A와 지혈제 B의 평균 지혈 시간은 같다.
      • H1(대립 가설): 지혈제 A와 지혈제 B의 평균 지혈 시간은 다르다.
    • 유의 수준 α=0.05
    • 검정 통계량 =-0.29
    • P-value는 0.7775>α --> 귀무가설을 채택함.
    • 결론 : 유의 수준 5%에서 지혈제 A와 B의 평균 지혈 시간은 통계적으로 유의미한 차이가 없었다.

만약 이분 산일 경우에도 검증을 해보자.(물론 지금 x1, x2는 등분산이다)

t.test(x1,x2,var.equal=F)

P-value > α 귀무가설을 채택. 따라서 이분산인 경우에도 지혈제 A와 지혈제 B의 평균 지혈 시간은 통계적으로 유의미한 차이가 없었다.

📕R프로그래밍을 이용해서 이 표본 T-test 구하기

T_test_2A=function(x,y){
n1=length(x); n2=length(y)
s1=var(x);s2=var(y)
F=s1/s2
pvalue=min(2*pf(F,n1-1,n2-1),2*(1-pf(F,n1-1,n2-1)))
cat(" ================ 이표본 분산비 검정 =================","\n","\n")
cat(" F= ",F,",P-value=",pvalue,"\n","\n")
xbar=mean(x);ybar=mean(y)
sp=sqrt(((n1-1)*s1+(n2-1)*s2)/(n1+n2-2))
T=(xbar-ybar)/(sp*sqrt(1/n1+1/n2))
pvalue=2*(1-pt(abs(T),n1+n2-2))
cat(" ================== 이표본 평균차 검정=================","\n","\n")
cat(" 등분산인 경우 : T=",T,"P-value=",pvalue,"\n")
df=(s1/n1+s2/n2)^2 / ((s1/n1)^2/(n1-1)+(s2/n2)^2/(n2-1))
T=(xbar-ybar)/sqrt(s1/n1+s2/n2)
pvalue=2*(1-pt(abs(T),df))
cat("이분산인 경우 : T=",T,"P-value=",pvalue,"\n")
}

T_test_2A(x1, x2) --> 지혈제 A와 지혈제 B의 지혈 시간 차에 대한 검정을 R프로그래밍을 이용해서 한 것.

실행결과 R에서 내장된 기능을 한 것과 P-value가 일치하는 것을 알 수 있다.

연습문제 1

새 제품과 기존제품 입력하기

new=c(50,48,47,45,46,43)
old=c(45,43,45,44,43,40)

새 제품과 기존 제품의 판매량 차이에 대한 분산 검정

var.test(new,old)

**💡해석**

  • 가설 검정
    • 가설
      • H0 : 새제품과 기존제품의 분산은 같다. [귀무가설]
      • H1 : 세제품과 기존제품의 분산은 다르다. [대립 가설]
    • 유의 수준 α =0.05
    • 검정 통계량 F = 1.7019
    • P값 = 0.5737 >α => 귀무가설 채택
    • 결론 : 새 제품과 기존 제품의 판매량은 분산이 통계적으로 유의미한 차이가 없다. (등분산임)

이 표본 평균 차 검정(등분산)

t.test(new,old,var.equal=T)

💡해석

  • 추정 : 새 제품의 판매량은 평균 46개이며, 기존 제품의 판매량은 평균 43개이다. 새제품과 기존제품의 판매량 차이에 대한 95% 신뢰구간은 (0.38, 5.95)이다.
  • 가설검정
    • 가설
      • H0 : 새제품과 기존제품의 판매량은 같다. [귀무가설]
      • H1 : 새제품과 기존제품의 판매량은 다르다. [대립 가설]
    • 유의 수준 α = 0.05
    • 검정 통계량 t = 2.5345
    • P-value = 0.029 <α --> 귀무가설을 기각함.
    • 결론 : 유의 수준 5%에서 기존 제품과 새 제품의 판매량은 다르다. 즉 새제품의 판매량이 기존 제품의 판매량보다 크다고 할 수 있다.

연습문제 2

사료 1과 사료2 입력하기

one=c(54,60,66,53,62,61,42,50)
two=c(53,60,62,67,59,45,60,52,52)

사료 1과 사료 2의 이표본 분산 검정

var.test(one,two)

**💡해석**

  • 가설
    • H0 : 사료 1과 사료 2의 우유 생산량은 같다.
    • H1 : 사료1과 사료2의 우유생산량은 다르다.
  • 유의 수준 α = 0.05
  • 검정 통계량 F= 1.3547
  • P-value > α --> 귀무가설을 채택
  • 결론 : 사료 1과 사료 2의 우유 생산량은 분산이 통계적으로 유의한 차이가 없다. (등분산이다)

📕이 표본 평균 차 검정(등분산)

t.test(one,two,var.equal=T)

💡해석

  • 추정 : 사료 1의 우유 생산량 평균은 56개이고, 사료 2의 우유생산량 평균은 56.6개이다. 사료1과 사료2의 우유생산량 차이에 대한 95% 신뢰구간은 (-8.12, 6.7)이다.
  • 가설검정
    • 가설
      • H0 : 사료 1과 사료 2의 우유 생산량은 같다. [귀무가설]
      • H1 : 사료1과 사료2의 우유생산량은 다르다. [대립 가설]
    • 유의 수준 α = 0.05
    • 검정 통계량 T = -0.1905
    • P-value = 0.8515> α --> 귀무가설을 채택한다.
    • 결론 : 유의 수준 5%에서 사료 1과 사료 2의 우유 생산량 차이는 통계적으로 유의한 차이가 없다.

✔정리

  • 두 집단의 이 표본 분산검정을 통해서 P값이 0.05보다 크다면 등분산, 0.05보다 작다면 이분산이다.
  • 이표본 평균 차 검정을 통해서 P값이 0.05보다 크다면 귀무가 설을 채택, 0.05보다 작다면 귀무가설을 기각한다.
저작자표시 (새창열림)

'학교 > R프로그래밍' 카테고리의 다른 글

R프로그래밍 기말고사 정리 12- 이표본 모비율차 검정(prop.test)  (0) 2022.06.13
R프로그래밍 기말고사 정리 10 - 이표본 검정(이변량데이터)  (0) 2022.06.13
R프로그래밍 기말고사 정리 08 - 이표본비율  (0) 2022.06.13
R프로그래밍 기말고사정리 07 - 통계적 가설 검정  (0) 2022.06.05
R프로그래밍 기말고사정리06- 일표본 유의성 검정  (0) 2022.06.05
  1. 📗독립인 자료(Independent data)
  2. 💡해석
  3. **💡해석**
  4. 📕R프로그래밍을 이용해서 이 표본 T-test 구하기
  5. 연습문제 1
  6. **💡해석**
  7. 💡해석
  8. 연습문제 2
  9. **💡해석**
  10. 📕이 표본 평균 차 검정(등분산)
  11. 💡해석
  12. ✔정리
'학교/R프로그래밍' 카테고리의 다른 글
  • R프로그래밍 기말고사 정리 12- 이표본 모비율차 검정(prop.test)
  • R프로그래밍 기말고사 정리 10 - 이표본 검정(이변량데이터)
  • R프로그래밍 기말고사 정리 08 - 이표본비율
  • R프로그래밍 기말고사정리 07 - 통계적 가설 검정
재한
재한
안녕하세요 💻
재한
짜이한
전체
오늘
어제
  • 분류 전체보기 (503)
    • Skils (117)
      • Android (51)
      • C++ (5)
      • Kotlin (36)
      • Algorithm (24)
      • Server (1)
    • CodingTest (228)
      • Programmers (45)
      • Baekjoon (183)
    • Experience (8)
      • 후기(코딩테스트,프로그램,프로젝트) (8)
    • Computer Science (70)
      • Design Pattern (2)
      • OOP (2)
      • Computer Architecture (14)
      • OS (2)
      • Software Engineering (3)
      • DataBase (8)
      • Network (39)
    • 학교 (75)
      • R프로그래밍 (26)
      • 회계와 사회생활 (17)
      • 컴퓨터학개론 (20)
      • it기술경영개론 (12)

블로그 메뉴

  • 홈
  • 태그
  • 카테고리
  • 글쓰기
  • 설정

인기 글

최근 댓글

최근 글

hELLO · Designed By 정상우.v4.2.2
재한
R프로그래밍 기말고사정리 09- 이표본 검정
상단으로

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.