●정규성 검정
- 데이터셋의 분포가 정규분포를 따르는지를 검정하는 것이다.
▷정규성 검정을 하는 방법 Q-Q plot
- Q-Q plot는 정규분포 분 위수 대조 도라 고한다.
- 정규 모집단 가정을 하는 방법 줌 하나이며, 수집 데이터를 표준 정규분포의 분 위수와 비교하여 그리는 그래프이다.
○정규 확률 그림
par(mfrow=c(1,2)); n=10
x=rnorm(n,0,1)
hist(x,prob=T,main="Normal(0,1)",col=2)
curve(dnorm(x),add=T,col=4) ##
qqnorm(x,sub="Normal") ## Q-Q plot
qqline(x) ##y=x 그래프 추가
--> 난수의 개수가 적어서 히스토그램 그래프와 q-q plot에서 모양이 틀어짐을 알 수 있다.
★난수의 개수를 늘린다면 어떻게 될까?
par(mfrow=c(1,2)); n=10000
x=rnorm(n,0,1)
hist(x,prob=T,main="Normal(0,1)",col=2)
curve(dnorm(x),add=T,col=4) ##
qqnorm(x,sub="Normal") ## Q-Q plot
qqline(x) ##y=x 그래프 추가
->난수의 개수를 늘리니까 히스토그램도 정규분포의 형태를 따르고, 난수를 뽑은 x와 qqnorm의 값이 같아서 q-qplot이 y=x그래프를 이루는 것을 볼 수 있다. (난수의 집합이 정규분포의 형태와 가까워졌다는 뜻이다)
● 여러 그래프 정규성 검정하기
- 정규분포 그래프
n=10000
x=rnorm(n)
qqnorm(x,sub="Normal")
qqline(x)
--> n(난수의 개수)가 커지니까 정규성을 따른다고 볼 수 있다.
2. 이항 분포
n=10000
x=rbinom(n,10,0.5)
qqnorm(x,sub="Binomial")
qqline(x)
--> n(난수의 개수)가 커지니까 이항 분포도 정규성을 따른다고 볼 수 있다.
3. 일양 분포(Uniform distribution)
n=10000
x=runif(n,min=0,max=1)
qqnorm(x,sub="Uniform")
qqline(x)
--> n(난수의 개수)가 커져도 일양 분포는 정규성을 따르지 않는다.
4. 포아송 그래프
n=10000
x=rpois(n,lambda=100)
qqnorm(x,sub="Possion")
qqline(x)
--> n(난수의 개수)가 커지니까 포아송 그래프도 정규성을 따른다고 볼 수 있다.
5. 지수 분포
n=10000
x=rexp(n,1)
qqnorm(x,sub="exponential")
qqline(x)
--> n(난수의 개수)가 충분히 커져도 지수 그래프는 정규성을 따르지 않는다.
정리
- 정규성 검정은 데이터셋의 분포가 정규분포를 따르는지 검정하는 것이다.
- q-q plot은 데이터셋의 정규성 검정을 판단하는 방법 중에 하나이다. (가장 간단하고 직관적이다)
- 이항 분포, 포아송은 정규성을 따른다.
- 일양 분포, 지수 분포는 정규성을 따르지 않는다.
'학교 > R프로그래밍' 카테고리의 다른 글
R프로그래밍 기말고사 정리 -03 이산확률분포에서의 중심극한정리 (0) | 2022.06.05 |
---|---|
R프로그래밍 기말고사 정리 -02 중심극한정리 (0) | 2022.06.04 |
R프로그래밍 중간고사 정리-14(난수 발생-연속확률분포) (0) | 2022.04.18 |
R프로그래밍 중간고사 정리 -13 (난수 발생-이산형 분포) (0) | 2022.04.17 |
R프로그래밍 중간고사 정리-12 (확률 계산 및 그래프 그리기- t분포,카이제곱 분포) (0) | 2022.04.17 |