R

검증의 종류

S0LL 2024. 10. 19. 10:39

1. t-test ( 그룹 평균 비교)

 

목적: 두 그룹 간 평균 차이가 유의미한지 확인합니다. 예를 들어, 당뇨 환자와 비당뇨 환자의 평균 체중 비교가 가능합니다.

 

데이터 형식:

txt, csv, sas7bdat, sav의 파일에서 데이터를 불러옵니다.

파일에는 그룹 변수(예: 당뇨 여부)와 측정 변수(예: 체중) 같은 컬럼이 포함되어 있어야 합니다.

 

검증 과정

1.데이터 로드
두 그룹을 비교할 수 있는 데이터 파일을 불러옵니다.
예: txt 파일에 당뇨 여부와 체중 데이터가 포함.

2.등분산성 가정 확인
t-test를 수행하기 전에,
그룹 간 분산이 동일한지를 확인하기 위해 Bartlett’s Test 또는 Levene’s Test를 수행합니다.

등분산성 검증 결과
p-value < 0.05: 귀무가설을 기각합니다.
즉, **그룹 간 분산이 동일하지 않다(이분산성)**고 결론 내립니다.
예: 그룹 간의 체중 분산이 동일하지 않으므로 Welch’s t-test나 Welch’s ANOVA를 고려합니다.


3.t-test 혹은 Welch's t-test 수행
등분산성 여부에 따라 일반 t-test 또는 Welch’s t-test를 수행하여
두 그룹의 평균 차이가 유의미한지 확인합니다.
이떄 Welch's t-test는 일반적인 t-test의 뒤에 var.equal = FALSE를 인자로 넣는것을 말합니다.

4.결과 해석
p-value를 통해 두 그룹 간 평균 차이가 있는지 결론을 내립니다.

 

검증 결과

•p-value
t-test의 결과에서 중요한 값은 p-value입니다.
이는 두 그룹 간의 평균 차이가 유의미한지를 판단하는 기준이 됩니다.

•t-통계량
t-test의 검정 통계량인 t 값은 두 그룹 간 평균 차이의 크기를 나타내며, 검정 결과에 중요한 역할을 합니다.

1.p-value < 0.05
귀무가설을 기각합니다.
즉, 두 그룹 간 평균 차이에 유의미한 차이가 있다고 결론 내릴 수 있습니다.
•예: 당뇨 환자와 비당뇨 환자의 평균 체중에 차이가 있다.

2.p-value ≥ 0.05
귀무가설을 기각하지 않습니다.
즉, 두 그룹 간 평균 차이에 유의미한 차이가 없다고 결론 내립니다.
•예: 당뇨 환자와 비당뇨 환자의 평균 체중에 차이가 없다.

 

추가 해석:

95% 신뢰 구간:

t-test 결과에는 두 그룹 간 평균 차이의 95% 신뢰 구간도 제공됩니다.

신뢰 구간이 0을 포함하지 않으면, 두 그룹 간 차이가 유의미하다고 해석할 수 있습니다.


2. ANOVA ( 그룹 이상 평균 비교)

 

목적: 세 그룹 이상 간의 평균 차이가 유의미한지 확인합니다. 예를 들어, 연령대별(40세 미만, 40~60세, 60세 이상) 당뇨 환자의 평균 체중 비교가 가능합니다.

 

데이터 형식:

 

txt, csv, sas7bdat, sav의 파일에서 데이터를 불러옵니다.

파일에는 그룹 변수(예: 연령대)와 측정 변수(예: 체중) 같은 컬럼이 포함되어 있어야 합니다.

 

검증 과정:

1.데이터 로드
여러 그룹 간 평균을 비교할 수 있는 데이터 파일을 불러옵니다. 예: 연령대와 체중 데이터가 있는 파일.

2.등분산성 가정 확인
Bartlett’s Test로 각 그룹의 분산이 동일한지 확인합니다.
만약 등분산성이 만족되지 않으면 Welch’s ANOVA를 사용합니다.

등분산성 검증 결과
p-value < 0.05: 귀무가설을 기각합니다.
즉, **그룹 간 분산이 동일하지 않다(이분산성)**고 결론 내립니다.
예: 그룹 간의 체중 분산이 동일하지 않으므로 Welch’s t-test나 Welch’s ANOVA를 고려합니다.

3.ANOVA 수행
등분산성이 만족된 경우, 일반 ANOVA를 수행하여 그룹 간 평균 차이가 있는지 확인하고,
아닌 경우 oneway.test 를 수행해 그룹간 평균 차이가 있는지 확인합니다.

4.사후 검정
만약 ANOVA 결과가 유의미하다면,
Tukey’s HSD 등의 사후 검정을 통해 어느 그룹 간에 차이가 있는지 확인합니다.

5.결과 해석
p-value를 통해 그룹 간 평균 차이가 있는지 결론을 내립니다.

 

검증 결과

•p-value
ANOVA 검정의 결과에서 p-value는 세 그룹 이상에서 평균 차이가 있는지를 확인하는 데 중요한 역할을 합니다.

•F-통계량
F-통계량은 ANOVA에서 그룹 간 분산과 그룹 내 분산을 비교하여 차이를 검증합니다.
F 값이 클수록 그룹 간 차이가 클 가능성이 높습니다.


1.p-value < 0.05
귀무가설을 기각합니다. 즉, 세 그룹 간 평균 차이에 유의미한 차이가 있다고 결론 내릴 수 있습니다.
•예: 연령대별 당뇨 환자의 평균 체중에 차이가 있다.

2.p-value ≥ 0.05
귀무가설을 기각하지 않습니다.
즉, 세 그룹 간 평균 차이에 유의미한 차이가 없다고 결론 내립니다.
•예: 연령대별 당뇨 환자의 평균 체중에 차이가 없다.

 

추가 해석:

 

사후검정(Tukey’s HSD)

ANOVA 결과에서 p-value가 유의미한 경우, 어느 그룹 간에 차이가 있는지를 알아보기 위해 사후 검정(post-hoc test)을 수행합니다. 대표적으로 Tukey’s HSD 검정을 사용합니다.

 

Tukey’s HSD 결과

특정 그룹 간의 p-value신뢰 구간을 제공하며, 어느 그룹 간에 차이가 있는지를 확인할 수 있습니다.


3. 회귀 분석 (Regression Analysis)

 

목적: 연속형 변수를 예측하거나 변수 간의 관계를 분석합니다. 예를 들어, 나이와 체중 간의 관계를 분석하는 것이 가능합니다.

 

데이터 형식:

 

txt, csv, sas7bdat, sav의 파일에서 데이터를 불러옵니다.

파일에는 설명 변수(독립 변수: 나이)와 반응 변수(종속 변수: 체중)가 포함되어 있어야 합니다.

 

검증 과정

1.데이터 로드
회귀 분석을 위한 독립 변수와 종속 변수를 포함한 데이터 파일을 불러옵니다.

2.회귀 모델 적합
선형 회귀나 다중 회귀 모델을 적합시켜 독립 변수와 종속 변수 간의 관계를 분석합니다.

3.모형 적합도 평가
R²(결정계수), 잔차 분석 등을 통해 회귀 모델의 적합도를 평가합니다.

4.결과 해석
각 독립 변수의 회귀 계수, p-value를 통해 변수 간의 관계를 해석합니다.

 

검증 결과

•회귀 계수
회귀 분석에서 가장 중요한 값은 회귀 계수입니다. 
독립 변수(예: 나이)가 종속 변수(예: 체중)에 미치는 영향을 나타냅니다.

•p-value
회귀 계수의 p-value는 해당 독립 변수가 종속 변수에 유의미한 영향을 미치는지를 판단하는 기준입니다.

•R² 값
**결정계수(R²)**는 모델이 종속 변수의 변동을 설명하는 정도를 나타냅니다.
R² 값이 1에 가까울수록 모델의 적합도가 좋습니다.


1.p-value < 0.05:
독립 변수가 종속 변수에 유의미한 영향을 미친다고 결론 내립니다.
•예: 나이는 체중에 유의미한 영향을 미친다.

2.p-value ≥ 0.05:
독립 변수가 종속 변수에 유의미한 영향을 미치지 않는다고 결론 내립니다.
•예: 나이는 체중에 유의미한 영향을 미치지 않는다.

 

추가 해석:

잔차 분석

회귀 분석의 **잔차(residuals)**를 분석하여 모델의 적합성을 평가합니다.

잔차가 정규 분포를 따른다면 모델이 데이터를 잘 설명한다고 볼 수 있습니다.


4. 카이제곱 검정 (Chi-Square Test)

 

목적: 두 범주형 변수 간의 독립성을 검증합니다. 예를 들어, 성별과 당뇨 여부 간의 관계가 독립적인지 확인할 수 있습니다.

 

데이터 형식:

 

txt, csv, sas7bdat, sav의 파일에서 데이터를 불러옵니다.

파일에는 범주형 변수(예: 성별, 당뇨 여부)가 포함되어 있어야 합니다.

 

검증 과정:

1.데이터 로드:
두 범주형 변수를 포함한 데이터 파일을 불러옵니다.

2.교차표 작성:
두 변수 간의 교차표(contingency table)를 만듭니다.

3.카이제곱 검정 수행:
교차표를 사용하여 카이제곱 검정을 수행하여 두 범주형 변수 간의 독립성을 검증합니다.

4.결과 해석:
p-value를 통해 두 변수 간에 독립적인 관계가 있는지 결론을 내립니다.

 

검증 결과

•p-value
카이제곱 검정의 p-value는 두 범주형 변수 간의 독립성을 평가합니다.

•카이제곱 통계량
카이제곱 통계량은 관측된 빈도와 기대되는 빈도 간 차이를 측정합니다.


1.p-value < 0.05
귀무가설을 기각합니다.
즉, 두 범주형 변수 간에는 유의미한 관계가 있다고 결론 내립니다.
•예: 성별과 당뇨 여부 간에는 유의미한 관계가 있다.

2.p-value ≥ 0.05:
귀무가설을 기각하지 않습니다.
즉, 두 변수 간에는 유의미한 관계가 없다고 결론 내립니다.
•예: 성별과 당뇨 여부 간에는 유의미한 관계가 없다.

 

추가 해석:

기대 빈도관찰된 빈도의 차이를 통해 변수 간의 관계를 더 깊이 해석할 수 있습니다.

관찰된 빈도가 기대 빈도보다 크면, 해당 범주 간의 상관성이 높다고 볼 수 있습니다.


5. 상관 분석 (Correlation Analysis)

 

목적: 두 연속형 변수 간의 상관 관계를 분석합니다. 예를 들어, 체중과 나이 간의 상관 관계를 확인할 수 있습니다.

 

데이터 형식:

 

txt, csv, sas7bdat, sav의 파일에서 데이터를 불러옵니다.

파일에는 연속형 변수(예: 체중, 나이)가 포함되어 있어야 합니다.

 

검증 과정:

1.데이터 로드:
상관 분석을 위한 두 연속형 변수를 포함한 데이터 파일을 불러옵니다.

2.상관 계수 계산:
Pearson 상관계수나 Spearman 상관계수를 계산하여 두 변수 간의 상관 관계를 분석합니다.

3.결과 해석:
상관 계수와 p-value를 통해 두 변수 간의 상관성이 유의미한지 확인합니다.

 

검증 결과

1)상관 계수:
상관 계수는 두 연속형 변수 간의 관계의 강도와 방향을 나타냅니다.

1-1)양의 상관:
상관 계수가 +1에 가까울수록 두 변수는 양의 관계에 있습니다.
즉, 하나의 변수가 증가하면 다른 변수도 증가합니다.

1-2)음의 상관:
상관 계수가 -1에 가까울수록 음의 관계에 있습니다.
즉, 하나의 변수가 증가하면 다른 변수는 감소합니다.

•1-3)에 가까운 상관:
상관 계수가 0에 가까울수록 관계가 약하거나 없다고 해석합니다.

•2)p-value: 상관 계수의 p-value는 두 변수 간 상관 관계가 유의미한지 평가합니다.


1.p-value < 0.05
두 변수 간의 상관 관계가 유의미하다고 결론 내립니다.
•예: 체중과 나이 간에는 유의미한 상관 관계가 있다.

2.p-value ≥ 0.05
두 변수 간의 상관 관계가 유의미하지 않다고 결론 내립니다.
•예: 체중과 나이 간에는 유의미한 상관 관계가 없다.

 

추가 해석:

상관 계수의 방향과 크기에 따라 관계의 강도와 방향을 해석합니다.

상관 계수는 변수 간의 선형 관계만 측정하므로, 비선형 관계를 파악하려면 다른 검정을 사용해야 합니다.


6. 분산분석 (MANOVA)

 

목적: 여러 종속 변수에 대해 그룹 간 차이를 분석합니다. 예를 들어, 나이와 성별에 따른 여러 건강 지표(체중, 혈압 등)를 동시에 분석할 수 있습니다.

 

데이터 형식:

 

txt, csv, sas7bdat, sav의 파일에서 데이터를 불러옵니다.

파일에는 독립 변수(예: 성별, 나이)와 여러 종속 변수(예: 체중, 혈압)가 포함되어 있어야 합니다.

 

검증 과정:

1. 데이터 로드:
여러 종속 변수를 포함한 데이터 파일을 불러옵니다.

2. MANOVA 수행:
여러 종속 변수에 대해 MANOVA를 수행하여 그룹 간 차이를 분석합니다.

3. 결과 해석:
p-value와 Wilks’ Lambda 등을 통해 그룹 간 차이가 있는지 해석합니다.