이변량 데이터 : 변수가 두 개인 것 ex) 성별에 따른 키 다음 자료는 성별에 따른 키 이다. 남자가 1이고 여자가 2이다. 이러한 자료들은 이표본 검정할 것이다. 아래 자료는 방법 1, 방법 2에 따른 질소성분 함량이다. (등분산이라고 가정) method=c(1,1,1,1,1,2,2,2,2) x=c(19.1,32.8,27.6,25.9,28.5,17.0,16.4,16.8,15.5) t.test(x~method,var.equal=T) 💡해석 추정 : 방법 1의 평균 질소성분 함유량은 26.78, 방법2의 평균 질소성분함유량은 16.46이며, 방법1과 방법2의 평균 질소성분함유량에 대한 95%신뢰구간은 (4.33,16.37)이다. 가설 검정 가설 H0 : 방법 1과 방법 2의 평균 질소 성분함유량은 같다...
📗독립인 자료(Independent data) 비교하고자 하는 두 집단의 측정치들이 서로 다른 개체에서 얻어진 것으로 한 집단의 측정치가 다른 집단의 측정치에 영향을 주지 않는 경우에 얻어진 자료로 각 개체들은 서로 독립이어야 한다. 💡대표적인 통계 기법 모수적 기법 : T-test 비모수적 기법 : Wilcoxon rank sum test(Mann-Whitney U test), Median test 💡독립 이 표본 t-test 명칭 그대로 두 개의 독립적인 모집단에서 추출된 표본을 이용하여 두 집단의 모평균을 비교하는 검정입니다. 대응 이표본 t-test는 한 그룹에게 A 약 투여 후 효과에 대한 전후 비교, 독립 이표본 t-test는 A 약고 B약에 대해 두 그룹을 나누어 효과 비교 독립 이표본 t-..
💡이 표본비율 prop.test(x, n, p) 표본으로부터 모집단의 비율을 추정 및 검정할 때 사용. ex) 찬성과 반대중 어느 비율이 높은지 추정 정규 분포 근사를 사용한다. 콘서트를 하는데 100명 중에 42명이 참석을 했다면 참석률은 50%라고 할 수 있을까? 에 대한 검정이다. 📕R에서 제공 prop.test(42,100,0.5) //prop.test(n,x,p) 💡해석 1. 추정 콘서트의 참석률의 표본 참석률은 42%이며, 콘서트의 참석률의 95% 신뢰구간은 (32%, 52%)이다. 2. 가설검정 가설 H0 : 콘서트 참석률은 50%이다. H1 : 콘서트 참석률은 50%와 다르다. 유의 수준 α=0.05 검정 통계량 = 2.25 P-value = 0.1336 > α ==> H0(귀무가설) 채택..
📕가설의 종류 대립 가설(Alternative hypothesis) 표본에서 얻은 경험적 사실을 이용하여 연구자 주장의 타당성을 입증하고자 하는 통 계절 가설로 보통 H1로 표기한다. 귀무가설(Null hypothesis) 연구자의 주장에 충분한 증거가 없어 무효화(nullify)하려고 하는 가설로 보통 H0로 표기한다. **📕오류의 종류** 표본을 가지고 모집단을 판단하게 되므로 항상 오류가 발생한다. 귀무가설(H0)이 True 대립가설(H1)이 True H0기각,H1채택 제1종 오류 옳은 결정 H0채택,H1기각 옳은 결정 제 2종 오류 📕유의수준(significance level) 제1종 오류를 범할 확률의 허용 한계 유의 수준은 0.01, 0.05, 0.1등을 사용 👀가설 검정의 예시 📗H0(귀무가..
📕통계적 추정(Statistical estimation) 모집단에 대한 정보가 없을 때 표본의 성격을 나타내는 통계량을 기초로 하여 모집단의 모수를 추론하는 방법을 뜻한다. 📕통계적 추정의 방법 점추 정 모수를 가장 잘 대표하는 하나의 값을 추정하는 과정 모평균, 모비율, 모 분산 표본 평균, 표본비율, 표본 분산 구간 추정 모수가 포함되어있을 구간을 추정하는 과정 💡95% 신뢰구간의 의미 랜덤 하게 n개를 들고 올 때 mu를 포함하지 않을 확률이 5%라는 뜻.
💡데이터의 종류 특성에 따른 분류 범주형(Categorical Data): 산술 연산이 불가능함-> 도수분포표 table() 함수를 이용(남/녀, 혈액형 등 값의 범위가 있음) 연속형(수치형, Numerical Data): 수치로 측정되기 때문에 산술 연산 가능 (시험성적,몸무게,키 등) 변수 개수에 의한 분류 일변량(Unvariable Data): 변수 개수가 한 개 ->Vector 사용 다변량(Multivariable Data): 변수 개수가 두개 이상 -> Matrix or Data.Frame 이용 이변량(Bivariable): 변수 개수가 두개 ex) '키'가 크면 '몸무게'도 많이 나간다. 👀이변량 데이터 정리 📗범주형자료의 이원 분할표 x=rbind(c(54,7),c(3,12)) rowname..