핵심 요약: 현대 과학 연구 결과 중 다수가 실제로는 거짓일 가능성이 매우 높다. 이는 연구 설계, 통계적 유의성의 오용, 표본 크기, 연구자 간 경쟁, 편향 등 다양한 요인에 기인한다. 논문에서는 왜 이런 일이 발생하는지 수식적으로 분석하며, 우리가 연구 결과를 어떻게 더 신뢰할 수 있도록 향상시킬 수 있을지에 대해 생각해본다.
점점 더 많은 과학자와 대중들이 "대부분의 현대 논문 연구 결과가 거짓일 것"이라는 우려를 하고 있다. 실제로 저명한 저널에 실린 연구조차도 시간이 지나 다른 연구로 반박되거나 신빙성이 떨어지는 경우가 잦다. 저자는 이 현상에 놀랄 필요가 없다고 말한다.
"대부분의 주장된 연구 결과는 거짓임을 증명할 수 있다."
이 글은 어떤 요인들이 이런 현상을 만들고, 연구 결과 해석과 과학 발전에 어떤 함의를 주는지 구체적으로 탐구한다.
논문은 양성 예측 가치(PPV, Positive Predictive Value)라는 확률적 개념을 활용한다.
PPV는 한 연구 결과(예: B 질병에 A 약이 효과가 있다)가 '실제로도 진실일' 가능성을 나타낸다.
PPV는 다음 요인에 따라 달라진다.
작은 표본, 낮은 효과 크기, 사전 가능성이 낮은 주제일수록 PPV는 떨어진다.
즉, 연구 결과가 사실일 확률보다 거짓일 확률이 높아진다.
편향(bias)은 연구 수행이나 결과 해석에서 의도적으로 혹은 무의식적으로 결과를 '왜곡'하는 모든 요인을 의미한다.
예를 들어:
이런 편향이 커질수록, 진실된 연구 결과가 나올 확률(PPV)은 급격히 감소한다.
"편향의 수준이 높아질수록 연구 결과가 진실일 확률은 상당히 줄어든다."
이외에도 반대로 중요한 사실이 무시되는 경우(Reverse bias)도 있으나, 이는 드물고 최근에는 측정 기술 향상으로 상당 부분 해결되고 있다.
현대 생명과학을 비롯해 많은 분야에서는 같은 가설을 다수의 연구팀이 계속 반복적으로 검증한다.
그런데 이 과정이 의외로 문제를 악화시킨다. 여러 팀이 동일 가설을 검증할수록, 우연히 통계적으로 유의한 값이 한 팀에서 나올 가능성이 높아진다.
즉, '경쟁이 심한 핫 분야'일수록 거짓된 결과를 유의하게 만든 연구가 나올 확률이 더 높아진다.
"과학계에 더 많은 팀이 몰리는 '핫한' 연구 분야일수록, 연구 결과가 진실일 가능성은 더 낮아진다."
논문은 이러한 원리를 실제 유전체 연구 사례로 설명한다. 100,000가지 유전자 변이 중 실제로 질병에 영향을 미치는 것은 10개뿐일 거라고 가정하고, 통계적 검정력과 편향까지 고려했을 때 진실된 결과가 '있다'고 결론 내릴 확률은 극히 낮다.
그리고 다음과 같이 여섯 가지 귀결을 제시한다.
시뮬레이션과 실제 연구 상황을 종합해 볼 때, 대부분의 연구 설계·분야에서는 참(True)인 연구 결과가 나올 확률이 50%를 넘기 어렵다.
랜덤화·대규모 임상 연구나 좋은 품질의 메타분석이 아닌 이상, 대부분의 관찰연구·탐색적 과학 논문 결과는 '거짓(재현 불가)'일 가능성이 더 높다.
특히 생의학처럼 사전 확률(진짜 효과가 존재할 확률)이 아주 낮은 분야에서는 보고된 효과 크기가 실제 효과가 아니라, 그 분야의 편향(Bias) 정도를 '정확히 측정한 값'일 수도 있다.
즉, 강하게 통계적으로 유의한 결과일수록, 오히려 더 커다란 편향의 신호일 가능성이 있다.
"너무 크고 너무 유의미한 효과들은, 오히려 대단한 발견의 신호가 아니라 심각한 편향의 신호일 수 있다. 데이터, 분석, 결과에 무엇이 잘못됐는지 비판적으로 다시 살펴봐야 한다."
100% 진실을 담보할 수 있는 "금표준(gold standard)"은 존재하지 않지만, 우리는 실천적 해법을 시도할 수 있다.
이 글은 많은 논문 연구 결과가 사실은 거짓일 확률이 높다는 점을 수식, 그림, 실제 사례 등 다양한 방식으로 설득력 있게 보여준다. 연구자가 '연구 결과' 앞에 설 때, '이 결과가 진짜일까?'라는 비판적 질문을 끊임없이 던지고, 연구 설계·분석·결과 해석 모두에서 겸손함과 신중함을 잃지 않아야 한다는 중요한 교훈을 준다. 🚦