R프로그래밍 기말고사 정리 05- 데이터의 종류와 분석

2022. 6. 5. 17:00· 학교/R프로그래밍
목차
  1. 💡데이터의 종류
  2. 👀이변량 데이터 정리
  3. 📕상관계수의 종류 (일반적으로 상관계수라 함은 Pearson's의 상관계수를 의미한다.)

💡데이터의 종류

  1. 특성에 따른 분류
    • 범주형(Categorical Data): 산술 연산이 불가능함-> 도수분포표 table() 함수를 이용(남/녀, 혈액형 등 값의 범위가 있음)
    • 연속형(수치형, Numerical Data): 수치로 측정되기 때문에 산술 연산 가능 (시험성적,몸무게,키 등)
  2. 변수 개수에 의한 분류
    • 일변량(Unvariable Data): 변수 개수가 한 개 ->Vector 사용
    • 다변량(Multivariable Data): 변수 개수가 두개 이상 -> Matrix or Data.Frame 이용
    • 이변량(Bivariable): 변수 개수가 두개 ex) '키'가 크면 '몸무게'도 많이 나간다.

👀이변량 데이터 정리

📗범주형자료의 이원 분할표

x=rbind(c(54,7),c(3,12))
rownames(x)=c("부모착용","부모미착용")
colnames(x)=c("아이착용","아이미착용")
margin.table(x,1)
margin.table(x,2)
addmargins(x)
prop.table(x)

조금 깔끔하게 행, 열 맞게 출력하고 싶은데 그게 잘 안 되는 것 같다. R은 참 불편한 게 많네..

아무튼 위의 그림처럼 테이블을 만들었다.

barplot(x,main="벨트착용유무",legend.text=T) ##legend.text=색깔이 뭘 의미하는지 명시해줌. default는 F
barplot(x,main="벨트착용유무",legend.text=F)
barplot(x,main="벨트착용유무",legend.text=T,beside=T) ##beside는 bar끼리 분리함. default는 F
barplot(x,main="벨트착용유무",legend.text=T,beside=F)

👀상관계수(양적 자료)

: 두 변수 사이의 통계적 관계를 표현하기 위해 특정한상관관계의 정도를 수치적으로 나타낸 계수이다.

machine = c(68,82,94,106,92,80,76,74,110,93,86,65,74,84,100)
expert= c(72,84,89,100,97,88,84,70,103,84,86,63,69,87,93)
plot(machine,expert) ## 산점도, machine과 expert의 관계가 궁금함.

산점도는 직교 좌표계(도표)를 이용해 좌표상의 점들을 표시함으로써 두 개 변수 간의 관계를 나타내는 그래프 방법이다. 도표 위에 두 변수 X와 Y값이 만나는 지점을 표시한 그림. 이 그림을 통해 두 변수 사이의 관계를 알 수 있다.

📕상관관계

산점 도내에서 파악할 수 있는 패턴이나 관계를 의미합니다.

상관관계는 데이터에 관련성이 있는지를 설명해준다.

  • 음의 상관관계
    1. x값이 증가할 때 y값이 감소한다면 두 데이터는 음의 상관관계라고 말합니다.

  • 양의 상관 관계
    1. x값이 증가할 때 y값도 증가한다면 두 데이터는 양의 상관관계라고 말합니다.

  • 상관 관계없음
    • 두 데이터 간의 어떠한 패턴이 발견되지 않는 관계를 말합니다.

📕상관 계수

변수 간의 관계의 정도와 방향을 하나의 수치로 요약해주는 지수다.

📕상관계수의 종류 (일반적으로 상관계수라 함은 Pearson's의 상관계수를 의미한다.)

📗Pearson's 상관 계수

cor(machine,expert) ##일반적으로 상관계수는 `Pearson's 상관계수`를 의미한다.

machine과 expert의 상관계수는 0.9로 상관관계가 아주 높다고 판단할 수 있다.

r1=cov(machine,expert)/(sd(machine)*sd(expert)) ## R프로그래밍을 이용한 Pearson's 상관계수 계산
x=machine;y=expert
xbar=mean(x); ybar=mean(y)
sum1=0; sum2=0; sum3=0
for( i in 1 : length(x)){
sum1=sum1+(x[i]-xbar)^2
sum2=sum2+(y[i]-ybar)^2
sum3= sum3+(x[i]-xbar)*(y[i]-ybar)
}
r2=sum3/sqrt(sum1*sum2)
cor(machine,expert,method="spearman") ##Spearman's 상관계수

모두 다 Pearson's 상관계수를 구하는 방법이다.

📗Spearman's 상관계수

machine과 expert의 Spearman's 상관계수는 0.88로 상관관계가 높다고 판단할 수 있다.

저작자표시 (새창열림)

'학교 > R프로그래밍' 카테고리의 다른 글

R프로그래밍 기말고사정리 07 - 통계적 가설 검정  (0) 2022.06.05
R프로그래밍 기말고사정리06- 일표본 유의성 검정  (0) 2022.06.05
R프로그래밍 기말고사 정리 04 - 연속확률분포에서의 중심극한정리  (0) 2022.06.05
R프로그래밍 기말고사 정리 -03 이산확률분포에서의 중심극한정리  (0) 2022.06.05
R프로그래밍 기말고사 정리 -02 중심극한정리  (0) 2022.06.04
  1. 💡데이터의 종류
  2. 👀이변량 데이터 정리
  3. 📕상관계수의 종류 (일반적으로 상관계수라 함은 Pearson's의 상관계수를 의미한다.)
'학교/R프로그래밍' 카테고리의 다른 글
  • R프로그래밍 기말고사정리 07 - 통계적 가설 검정
  • R프로그래밍 기말고사정리06- 일표본 유의성 검정
  • R프로그래밍 기말고사 정리 04 - 연속확률분포에서의 중심극한정리
  • R프로그래밍 기말고사 정리 -03 이산확률분포에서의 중심극한정리
재한
재한
안녕하세요 💻
재한
짜이한
전체
오늘
어제
  • 분류 전체보기 (504)
    • Skils (118)
      • Android (52)
      • C++ (5)
      • Kotlin (36)
      • Algorithm (24)
      • Server (1)
    • CodingTest (228)
      • Programmers (45)
      • Baekjoon (183)
    • Experience (8)
      • 후기(코딩테스트,프로그램,프로젝트) (8)
    • Computer Science (70)
      • Design Pattern (2)
      • OOP (2)
      • Computer Architecture (14)
      • OS (2)
      • Software Engineering (3)
      • DataBase (8)
      • Network (39)
    • 학교 (75)
      • R프로그래밍 (26)
      • 회계와 사회생활 (17)
      • 컴퓨터학개론 (20)
      • it기술경영개론 (12)

블로그 메뉴

  • 홈
  • 태그
  • 카테고리
  • 글쓰기
  • 설정

인기 글

최근 댓글

최근 글

hELLO · Designed By 정상우.v4.2.2
재한
R프로그래밍 기말고사 정리 05- 데이터의 종류와 분석
상단으로

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.