메타분석 파이프라인

C5-C6-C7 시스템: 인간 감독과 함께하는 AI 지원 메타분석

"기계는 계산하고, 연구자는 결정한다: 엄격한 메타분석을 위한 파트너십"

1단계: C5-C7 시스템 이해하기

메타분석 파이프라인은 함께 작동하는 세 개의 전문 에이전트로 구성됩니다:

메타분석 마스터

오케스트레이터 & 의사결정 권한

책임:

▸전반적인 연구 질문 해석
▸효과크기 계층 선택
▸메타분석 모델 선택 (고정/랜덤/MASEM)
▸모든 메타분석 결정에 대한 최종 권한

트리거 키워드:

메타분석효과크기 종합풀링 추정MASEM

데이터 무결성 가드

추출 및 계산 전문가

책임:

▸논문에서 효과크기 추출 (PDF, 표, 텍스트)
▸편향 보정과 함께 Hedges' g 계산
▸다양한 방법을 사용한 SD 복구
▸데이터 완전성 검증

트리거 키워드:

효과크기 추출Hedges g 계산SD 복구

오류 방지 엔진

검증 및 품질 보증

책임:

▸4-게이트 검증 시스템
▸통계적 이상 탐지
▸일반적인 메타분석 함정 경고
▸출판 전 품질 검사

트리거 키워드:

검증오류 확인품질 보증

에이전트 관계

┌───────────────────────────────────────────┐
│  C5: Meta-Analysis Master                 │
│  (Orchestrator & Decision Authority)      │
└───────────┬───────────────────────────────┘
            │
            ├─── delegates to ───┐
            │                    │
            ▼                    ▼
┌─────────────────────┐  ┌──────────────────┐
│  C6: Data Integrity │  │  C7: Error       │
│  Guard              │  │  Prevention      │
│  (Extract & Calc)   │  │  Engine          │
└──────────┬──────────┘  └────┬─────────────┘
           │                  │
           └──── validates ◄──┘
                (4-Gate System)

2단계: 메타분석 시작하기

메타분석 의도를 언급하면 C5가 자동으로 활성화됩니다:

사용자 입력:

"AI 튜터링 효과에 대한 메타분석을 하고 싶어요"

C5 명확화 질문:

Q1:연구 질문은 무엇인가요? (예: "AI 튜터링이 학습 성과를 향상시키는가?")
Q2:어떤 유형의 효과크기를 예상하나요? (Cohen's d, 상관계수 r, 승산비)
Q3:이미 연구를 확인했나요, 아니면 체계적 검색이 필요한가요?
Q4:직접 효과만 분석하나요, 아니면 매개/조절 관계도 분석하나요?

🔴 META_ANALYSIS_PROTOCOL

REQUIRED

언제: 데이터 추출 시작 전

결정: 연구 질문, ES 계층, 메타분석 접근법 승인

⚠ 프로토콜을 승인할 때까지 C5는 추출을 진행하지 않습니다

3단계: C6를 사용한 데이터 추출

프로토콜이 승인되면 C6가 연구에서 효과크기를 추출합니다:

PDF 업로드

연구 PDF 업로드

C6가 OCR + LLM을 사용하여 표, 텍스트, 그림을 읽습니다

수동 입력

통계와 함께 연구 ID 제공

Study A: M1=5.2, SD1=1.1, n1=30, M2=4.8, SD2=1.3, n2=28

CSV 가져오기

추출된 데이터가 있는 코드북 업로드

studyID, author, year, intervention, outcome, n1, M1, SD1, n2, M2, SD2

Hedges' g 계산

C6는 모든 효과크기를 자동으로 Hedges' g (편향 보정된 Cohen's d)로 변환합니다:

g = d × (1 - 3/(4(n1+n2)-9))

Hedges' g를 사용하는 이유:

✓작은 표본에 대한 불편 추정
✓다른 표본 크기의 연구 간 비교 가능
✓교육/심리학 메타분석의 표준 지표

SD 복구 방법 (C6 자동):

1.SE를 SD로 변환: SD = SE × √n
2.t-통계량 역계산: d = t × √(1/n1 + 1/n2)
3.F-통계량에서 d: d = √(F × (n1+n2)/(n1×n2))
4.p-값 근사 (최후의 수단, C7이 플래그)

4단계: C7를 사용한 4-게이트 검증

C7은 추출된 데이터에 대해 엄격한 4-게이트 검증 시스템을 실행합니다:

추출 검증

검사 항목:

▸모든 필수 필드가 있나요? (각 그룹의 n, M, SD)
▸값이 타당한 범위 내에 있나요? (SD > 0, n ≥ 2, |g| < 5)
▸보고된 통계가 계산된 효과크기와 일치하나요?

일반적인 오류:

SD 누락 → C7이 복구 방법을 플래그
음수 SD → 데이터 입력 오류
극단적 g (|g| > 3) → 원본 논문으로 확인

분류 검증

검사 항목:

▸조절변수에 따라 연구가 올바르게 분류되었나요?
▸개입이 메타분석 범위와 일치하나요?
▸결과 측정이 연구 간 일관적인가요?

일반적인 오류:

개입 불일치 → 제외 또는 재분류
결과 구성 드리프트 → 민감도 분석을 위해 플래그

통계적 검증

검사 항목:

▸이질성 (I²)이 허용 범위 내에 있나요?
▸통계적 이상치가 있나요 (스튜던트화 잔차 > ±3)?
▸출판 편향이 명백한가요 (깔때기 그림 비대칭)?

일반적인 오류:

높은 이질성 (I² > 75%) → 랜덤 효과 또는 조절변수 분석 제안
이상치 감지 → 특정 연구 플래그
출판 편향 → trim-and-fill 또는 선택 모델 권장

독립성 검증

검사 항목:

▸동일한 표본의 여러 효과크기가 올바르게 처리되었나요?
▸중첩 구조(교실 내 학생)가 고려되었나요?
▸종속 효과크기가 적절하게 모델링되었나요?

일반적인 오류:

비독립성 감지 → 평균화 또는 다층 MA 제안
클러스터링 무시 → 제1종 오류 팽창 경고

자주 감지되는 오류 패턴

패턴	심각도	권장사항
연구의 >30%에서 SD 누락	높음	저자에게 원시 데이터 요청 또는 대체 방법 사용 (보고서에 플래그)
모든 효과크기가 양수 (음수 효과 없음)	중간	Egger 검정, trim-and-fill을 사용하여 출판 편향 확인
극심한 이질성 (I² > 90%)	높음	풀링하지 마세요. 하위 그룹 분석 또는 서술적 종합 수행

5단계: 오케스트레이션 및 결과

C5가 워크플로를 조정하고 결과를 종합합니다:

C5:프로토콜 정의

🔴 META_ANALYSIS_PROTOCOL

C6:k개 연구에서 데이터 추출

C7:검증 (게이트 1-2)

C6:Hedges g 계산

C7:검증 (게이트 3-4)

C5:메타분석 모델 선택

C5:Forest plot, Funnel plot 생성

C5:결과 해석

🔴 META_ANALYSIS_RESULTS (RECOMMENDED)

결정 포인트: 고정 효과 vs. 랜덤 효과

I² < 25% (낮은 이질성)일 때

C5 권장사항: 고정 효과 모델 (단일 진정한 효과크기 가정)

당신의 선택: 모집단 이질성이 예상되면 재정의 가능

결정 포인트: 이상치 처리

C7이 극단적 g 값을 가진 2개 연구를 플래그할 때

C5 권장사항: 민감도 분석 실행 (이상치 포함/제외)

당신의 선택: 영구적으로 제외할지 또는 두 분석을 모두 보고할지 결정

결정 포인트: 출판 편향 보정

Funnel plot이 비대칭성을 보일 때 (Egger p < .05)

C5 권장사항: 보정되지 않은 추정치와 trim-and-fill 보정 추정치 모두 보고

당신의 선택: 결론에서 어느 것을 강조할지 선택

🟠 META_ANALYSIS_RESULTS

RECOMMENDED

언제: 풀링 추정치 계산 후

결정: 원고 완성 전 해석 검토 및 승인

⚠ 아니오 - 토론 섹션 작성 전 검토 강력 권장

6단계: 내보내기 및 통합

출판 및 재현성을 위해 여러 형식으로 결과 내보내기:

범용 메타분석 코드북

AI 출처 추적이 포함된 4-계층 코드북

▸계층 1: 식별자 (studyID, author, year, DOI)
▸계층 2: 통계 (n, M, SD, g, SE, 95% CI)
▸계층 3: AI 출처 (extraction_method, confidence_score, verification_status)
▸계층 4: 인간 검증 (verified_by, verification_date, notes)

사용 사례: 투명한 AI 지원 메타분석의 골드 스탠다드

R 스크립트 (metafor 패키지)

재현을 위한 즉시 실행 가능한 R 코드

library(metafor)
res <- rma(yi = hedges_g, vi = variance,
           method = "REML",
           data = codebook)
forest(res)

사용 사례: 저널 제출을 위한 재현 가능한 분석

Stata .do 파일

메타분석을 위한 Stata 구문

metan hedges_g se_g, random label(namevar=study)
metabias hedges_g se_g, egger

사용 사례: Stata 사용 연구자용

CMA/RevMan용 CSV

Comprehensive Meta-Analysis 또는 RevMan으로 가져오기

필드: studyID, author, year, n1, M1, SD1, n2, M2, SD2

사용 사례: GUI 기반 메타분석 도구

PRISMA 다이어그램 생성

C5는 다음을 보여주는 PRISMA 2020 흐름도를 생성할 수 있습니다:

1.식별: 데이터베이스에서 k개 연구
2.선별: 제외된 연구 (이유 포함)
3.적격성: 전체 텍스트 평가
4.포함: 메타분석에 포함된 최종 k개 연구

✓ I-카테고리 파이프라인(I0-I3)으로 시작한 경우 PRISMA가 자동으로 채워집니다

코드 예제

R (metafor)

library(metafor)

# C6 내보내기에서 코드북 로드
data <- read.csv("diverga_codebook_v2.2.csv")

# 랜덤 효과 메타분석
res <- rma(yi = hedges_g,
           vi = variance,
           method = "REML",
           data = data)

# Forest plot
forest(res,
       header = "Study",
       xlab = "Hedges' g")

# Funnel plot (출판 편향)
funnel(res)
regtest(res)  # Egger 검정

Python (metaanalysis 패키지)

import pandas as pd
from metaanalysis import MetaAnalysis

# 코드북 로드
df = pd.read_csv("diverga_codebook_v2.2.csv")

# 메타분석 초기화
ma = MetaAnalysis(df,
                  effect_size="hedges_g",
                  variance="variance")

# 랜덤 효과 모델 실행
results = ma.fit(method="REML")

# Forest plot 생성
ma.plot_forest()

# 이질성 확인
print(f"I²: {results.I2:.1f}%")
print(f"Q: {results.Q:.2f}, p={results.Q_pval:.3f}")

일반적인 함정

⚠ 분석 단위 오류

설명:

동일한 연구의 여러 결과를 독립적으로 처리

C7이 감지하는 방법:

게이트 4가 동일한 studyID가 여러 번 나타날 때 플래그

해결책: 연구 내 효과크기 평균화 또는 강건한 분산 추정 사용

⚠ 사과와 오렌지

설명:

호환되지 않는 결과 구성 풀링 (예: 시험 점수 + 자기효능감)

C7이 감지하는 방법:

게이트 2가 이질적인 outcome_type 값을 플래그

해결책: 결과 범주별로 별도의 메타분석 수행

⚠ 쓰레기 입력, 쓰레기 출력

설명:

편향된 효과크기를 가진 저품질 연구 포함

C7이 감지하는 방법:

자동으로 감지하지 않음 (도메인 지식 필요)

해결책: 포함 전에 연구 품질 평가 (B2 에이전트 사용)

⚠ 파일 서랍 문제

설명:

결과가 없는 미발표 연구 누락

C7이 감지하는 방법:

게이트 3이 funnel plot 비대칭성을 플래그

해결책: 회색 문헌 검색, 저자 연락, 편향 보정 추정치 보고

메타분석을 시작할 준비가 되셨나요?

C5-C6-C7 시스템은 복잡성을 처리하면서 완전한 통제권을 유지합니다.

메타분석 에이전트 보기 전체 워크플로우 보기 코드북 템플릿 다운로드