학교/R프로그래밍

💡모평균의 신뢰구간 신뢰구간이 u를 포함학 확률이 (1-α)*100 % dp 가까운지 확인 📕정규분포 모집단이 정규분포인 경우 모평균에 대한 신뢰구간의 신뢰도 비교 시뮬레이션 입력값 : 모평균(mu), 모표준편차(sd), 표본의 크기(n), 자료 set의 크기(m), 신뢰도(alpha) 📗입력 mu=0; sd=1;n=5;m=100000;alpha=0.95 📗크기 mu=0; sd=1;m=100000;alpha=0.95 n=c(5,10,15,20) count=0 a=alpha+(1-alpha)/2 for(j in 1 : length(n)){ for(i in 1 : m){ x=rnorm(n[j],mu,sd) xbar=mean(x) se=sd(x)/sqrt(n[j]) L=xbar-qt(a,n[j]-1)*se U..
모 비율차 검정 A그룹에서의 비율과 B그룹에서의 비율이 같은지 검정 📜예제자료 x=c(100,170) n=c(300,400) (x [1], n [1]) = 300번 중에 100번 성공했다 라는 뜻 (x [2], n [2]) = 400번 중에 170번 성공했다 라는 뜻. 📗모 비율차 검정 prop.test(x,n) 💡해석 추정 : D후보의 A도시에서의 지지율은 33%, B도시에서의 지지율은 42.5$% 이다. 가설 검정 가설 H0 : A도시와 B도시에서의 지지율은 같다. [귀무가설] H1: A도시와 B도시에서의 지지율은 다르다. [대립 가설] 유의 수준 α= 0.05 검정 통계량 =5.6988 P-value = 0.01698 귀무가설을 기각, 대립 가설을 채택 결론 : 유의 수준 5%에서 A도..
이변량 데이터 : 변수가 두 개인 것 ex) 성별에 따른 키 다음 자료는 성별에 따른 키 이다. 남자가 1이고 여자가 2이다. 이러한 자료들은 이표본 검정할 것이다. 아래 자료는 방법 1, 방법 2에 따른 질소성분 함량이다. (등분산이라고 가정) method=c(1,1,1,1,1,2,2,2,2) x=c(19.1,32.8,27.6,25.9,28.5,17.0,16.4,16.8,15.5) t.test(x~method,var.equal=T) 💡해석 추정 : 방법 1의 평균 질소성분 함유량은 26.78, 방법2의 평균 질소성분함유량은 16.46이며, 방법1과 방법2의 평균 질소성분함유량에 대한 95%신뢰구간은 (4.33,16.37)이다. 가설 검정 가설 H0 : 방법 1과 방법 2의 평균 질소 성분함유량은 같다...
📗독립인 자료(Independent data) 비교하고자 하는 두 집단의 측정치들이 서로 다른 개체에서 얻어진 것으로 한 집단의 측정치가 다른 집단의 측정치에 영향을 주지 않는 경우에 얻어진 자료로 각 개체들은 서로 독립이어야 한다. 💡대표적인 통계 기법 모수적 기법 : T-test 비모수적 기법 : Wilcoxon rank sum test(Mann-Whitney U test), Median test 💡독립 이 표본 t-test 명칭 그대로 두 개의 독립적인 모집단에서 추출된 표본을 이용하여 두 집단의 모평균을 비교하는 검정입니다. 대응 이표본 t-test는 한 그룹에게 A 약 투여 후 효과에 대한 전후 비교, 독립 이표본 t-test는 A 약고 B약에 대해 두 그룹을 나누어 효과 비교 독립 이표본 t-..
💡이 표본비율 prop.test(x, n, p) 표본으로부터 모집단의 비율을 추정 및 검정할 때 사용. ex) 찬성과 반대중 어느 비율이 높은지 추정 정규 분포 근사를 사용한다. 콘서트를 하는데 100명 중에 42명이 참석을 했다면 참석률은 50%라고 할 수 있을까? 에 대한 검정이다. 📕R에서 제공 prop.test(42,100,0.5) //prop.test(n,x,p) 💡해석 1. 추정 콘서트의 참석률의 표본 참석률은 42%이며, 콘서트의 참석률의 95% 신뢰구간은 (32%, 52%)이다. 2. 가설검정 가설 H0 : 콘서트 참석률은 50%이다. H1 : 콘서트 참석률은 50%와 다르다. 유의 수준 α=0.05 검정 통계량 = 2.25 P-value = 0.1336 > α ==> H0(귀무가설) 채택..
📕가설의 종류 대립 가설(Alternative hypothesis) 표본에서 얻은 경험적 사실을 이용하여 연구자 주장의 타당성을 입증하고자 하는 통 계절 가설로 보통 H1로 표기한다. 귀무가설(Null hypothesis) 연구자의 주장에 충분한 증거가 없어 무효화(nullify)하려고 하는 가설로 보통 H0로 표기한다. **📕오류의 종류** 표본을 가지고 모집단을 판단하게 되므로 항상 오류가 발생한다. 귀무가설(H0)이 True 대립가설(H1)이 True H0기각,H1채택 제1종 오류 옳은 결정 H0채택,H1기각 옳은 결정 제 2종 오류 📕유의수준(significance level) 제1종 오류를 범할 확률의 허용 한계 유의 수준은 0.01, 0.05, 0.1등을 사용 👀가설 검정의 예시 📗H0(귀무가..
📕통계적 추정(Statistical estimation) 모집단에 대한 정보가 없을 때 표본의 성격을 나타내는 통계량을 기초로 하여 모집단의 모수를 추론하는 방법을 뜻한다. 📕통계적 추정의 방법 점추 정 모수를 가장 잘 대표하는 하나의 값을 추정하는 과정 모평균, 모비율, 모 분산 표본 평균, 표본비율, 표본 분산 구간 추정 모수가 포함되어있을 구간을 추정하는 과정 💡95% 신뢰구간의 의미 랜덤 하게 n개를 들고 올 때 mu를 포함하지 않을 확률이 5%라는 뜻.
💡데이터의 종류 특성에 따른 분류 범주형(Categorical Data): 산술 연산이 불가능함-> 도수분포표 table() 함수를 이용(남/녀, 혈액형 등 값의 범위가 있음) 연속형(수치형, Numerical Data): 수치로 측정되기 때문에 산술 연산 가능 (시험성적,몸무게,키 등) 변수 개수에 의한 분류 일변량(Unvariable Data): 변수 개수가 한 개 ->Vector 사용 다변량(Multivariable Data): 변수 개수가 두개 이상 -> Matrix or Data.Frame 이용 이변량(Bivariable): 변수 개수가 두개 ex) '키'가 크면 '몸무게'도 많이 나간다. 👀이변량 데이터 정리 📗범주형자료의 이원 분할표 x=rbind(c(54,7),c(3,12)) rowname..
📕일양 분포 ( U(0,1)) par(mfrow=c(2,2)) n=c(10,100,1000,100000) mu=0.5; var=1/12 for(j in 1: length(n)) { m=1000 xbar=rep(0,m) for( i in 1 : m){ x=runif(n[j]) xbar[i]=mean(x)} xbar_mu = mean(xbar) xbar_var= var(xbar);xbar_var cat("표본의 개수 = ",n[j],"\n","모평균 = ",mu,"표본분포의 평균 = ",xbar_mu,"\n","모분산 = ",var,",var/n = ",var/n[j],"표본평균의 분산 = ",xbar_var,"\n") hist(xbar,breaks="fd",prob=T) curve(dnorm(x,mu,sq..
재한
'학교/R프로그래밍' 카테고리의 글 목록