본문으로 이동

준실험

위키백과, 우리 모두의 백과사전.

준실험무작위 배정 없이 대상 인구에 대한 개입의 인과적 영향을 추정하는 데 사용되는 경험적 개입 연구이다. 준실험 연구는 전통적인 실험 설계 또는 무작위 대조 시험과 유사점을 공유하지만 특히 치료 또는 통제에 무작위 배정 요소가 부족하다. 대신에, 준실험 설계는 일반적으로 연구자가 치료 조건에 대한 할당을 제어할 수 있도록 하지만 무작위 할당 이외의 일부 기준(예: 적격성 컷오프 표시)을 사용한다.[1]

준실험은 치료 그룹과 통제 그룹이 기준선에서 비교할 수 없기 때문에 내부 타당도에 대한 우려가 있다. 즉, 치료 조건과 관찰된 결과 사이의 인과 관계를 설득력 있게 입증하는 것이 불가능할 수 있다. 통제하거나 설명할 수 없는 교란 변수가 있는 경우 특히 그렇다.[2]


무작위 배정을 통해 연구 참가자는 중재 그룹 또는 비교 그룹에 배정될 확률이 동일하다. 결과적으로 관찰된 특성과 관찰되지 않은 특성 모두에서 그룹 간의 차이는 치료와 관련된 체계적인 요인(예: 질병 중증도)이 아니라 우연에 의한 것이다. 무작위 배정 자체는 그룹이 기준선에서 동등하다는 것을 보장하지 않다. 개입 후 특성의 변화는 개입에 기인할 가능성이 높다.

설계[편집]

준실험 설계를 만드는 첫 번째 부분은 변수를 식별하는 것이다. 준 독립 변수는 종속 변수에 영향을 미치기 위해 조작되는 변수인 x-변수가 된다. "X"는 일반적으로 수준이 다른 그룹화 변수이다. 예측된 결과는 y-변수인 종속 변수이다. 시계열 분석에서 종속 변수는 발생할 수 있는 모든 변경 사항에 대해 시간이 지남에 따라 관찰된다. 변수가 식별되고 정의되면 절차를 구현하고 그룹 차이를 조사해야 한다.[3]

무작위 배정 실험에서 연구 단위는 주어진 치료 조건에 배정될 확률이 동일하다. 따라서 무작위 할당은 실험군과 대조군이 모두 동등함을 보장한다. 준실험 설계에서 주어진 치료 조건에 대한 할당은 무작위 할당이 아닌 다른 것을 기반으로 한다. 준실험 설계의 유형에 따라 연구자는 치료 조건에 대한 할당을 제어할 수 있지만 무작위 할당 이외의 일부 기준(예: 컷오프 점수)을 사용하여 치료를 받는 참가자를 결정하거나 연구자가 치료를 받지 않을 수 있다. 치료 조건 할당에 대한 통제 및 할당에 사용된 기준이 알려지지 않았을 수 있다. 비용, 실행 가능성, 정치적 우려 또는 편의성과 같은 요소는 참가자가 주어진 치료 조건에 할당되는 방식이나 여부에 영향을 미칠 수 있으며, 이와 같이 준실험은 내부 타당성에 대한 우려의 대상이 된다.

준실험도 "사후 테스트"를 사용하기 때문에 효과적이다. 즉, 데이터를 수집하기 전에 혼동하는 사람이 있는지 또는 참가자에게 특정 경향이 있는지 확인하기 위한 테스트가 수행된다. 그런 다음 실제 실험은 사후 테스트 결과를 기록하여 수행된다. 이 데이터는 연구의 일부로 비교되거나 사전 테스트 데이터가 실제 실험 데이터에 대한 설명에 포함될 수 있다. 준실험에는 연령, 성별, 눈 색깔과 같이 이미 존재하는 독립 변수가 있다. 이러한 변수는 연속형(연령)이거나 범주형(성별)일 수 있다. 즉, 자연적으로 발생하는 변수는 준실험 내에서 측정된다.[4]

윤리학[편집]

예를 들어 진정한 실험은 다른 모든 변수를 통제하기 위해 무작위로 아이들을 장학금에 배정하는 것이다. 준실험은 사회 과학, 공중 보건, 교육정책 분석 에서 일반적으로 사용되며, 특히 연구 참가자를 치료 조건에 무작위 배정하는 것이 실용적이지 않거나 합리적이지 않은 경우에 사용된다.

장점[편집]

준실험 설계는 무작위화가 비실용적이거나 비윤리적일 때 사용되기 때문에[5] 피험자를 무작위로 할당해야 하는 실제 실험 설계보다 설정하기가 더 쉽다. 또한, 준실험 설계를 활용하면 잘 통제된 실험실 환경과 비교하여 자연 환경이 인공성의 문제를 겪지 않기 때문에 생태학적 타당성 에 대한 위협을 최소화할 수 있다. 준실험은 자연적인 실험이기 때문에 한 연구의 결과를 다른 주제와 환경에 적용할 수 있으므로 모집단에 대한 일반화를 일부 허용할 수 있다. 또한, 이 실험 방법은 다른 환경에서 추적할 수 있는 더 긴 기간을 포함하는 종단 적 연구에 효율적이다.

준실험의 다른 장점은 실험자가 원하는 대로 조작할 수 있다는 아이디어이다. 자연 실험에서 연구자들은 조작이 스스로 일어나도록 해야 하며 조작을 전혀 통제할 수 없다. 또한 준실험에서 스스로 선택한 그룹을 사용하는 것도 연구를 수행하는 동안 윤리적, 조건부 등의 우려를 없애준다.[6]

단점[편집]

영향에 대한 준실험적 추정치는 교란 변수에 의해 오염될 수 있다.[1] 위의 예에서, 때리기에 대한 아동의 반응의 변화는 쉽게 측정하고 통제할 수 없는 요인, 예를 들어 아동의 본질적인 거칠음 또는 부모의 과민 반응에 의해 그럴듯하게 영향을 받다. 준실험 설계 방법에서 무작위 할당이 없기 때문에 연구의 실행 가능성이 높아질 수 있지만 이는 내부 타당성 측면에서 조사자에게 많은 과제를 안겨준다. 무작위화의 이러한 결함은 교란 변수 를 배제하기 어렵게 만들고 내부 타당도 에 대한 새로운 위협을 도입한다.[7] 무작위화가 없기 때문에 데이터에 대한 일부 지식은 근사할 수 있지만 사회적 환경에 존재하는 다양한 외부 및 교란 변수로 인해 인과 관계의 결론을 결정하기 어렵다. 더욱이 이러한 내적 타당도에 대한 위협을 평가하더라도 실험자가 외부 변수를 완전히 통제할 수 없기 때문에 인과관계를 완전히 확립할 수 없다.[8]

또한 연구 그룹이 무작위성이 없기 때문에 약한 증거를 제공할 수 있다는 단점도 있다. 무작위성은 결과를 확장하여 전체 모집단을 더 잘 나타낼 수 있기 때문에 연구에 많은 유용한 정보를 제공한다. 불평등한 그룹을 사용하는 것도 내부 타당성에 위협이 될 수 있다. 그룹이 동일하지 않은 경우(때로는 준실험의 경우), 실험자는 결과에 대한 원인이 무엇인지 긍정적이지 않을 수 있다.[4]

내적 타당도[편집]

내적 타당도는 인과 관계 또는 인과 관계에 대한 추론에 대한 대략적인 진실이다. 이것이 모두 인과 관계에 관한 것이기 때문에 준실험에서 타당성이 중요한 이유이다. 실험자가 실험 결과에 영향을 줄 수 있는 모든 변수를 통제하려고 할 때 발생한다. 통계적 회귀, 역사 및 참가자는 모두 내부 타당도에 대한 가능한 위협이다. 내적 타당도를 높게 유지하려고 하는 동안 묻고 싶은 질문은 "내가 원하는 이유 외에 결과에 대한 가능한 다른 이유가 있는가?"이다. 그렇다면 내적 타당도가 강하지 않을 수 있다.[6]

외적 타당도[편집]

외적 타당도는 연구 표본에서 얻은 결과가 일부 잘 지정된 관심 모집단과 사람, 시간, 맥락 및 연구 방법의 하위 모집단 "전체"로 일반화될 수 있는 정도이다.[9] Lynch는 우리가 투영하고자 하는 모집단이 정의상 샘플링할 수 없는 미래 행동의 척도이기 때문에 모집단을 일반화하는 것은 거의 불가능하다고 주장했다.[10] 따라서 보다 적절한 질문은 치료 효과가 연구자에게 두드러지지 않을 수 있는 배경 요인에 따라 달라지는 "전체" 하위 집단을 일반화하는지 여부이다. 외적 타당성은 치료 연구가 사람들, 시간, 맥락 및 연구 방법의 여러 하위 집합에 걸쳐 균질한 영향을 미치는지 여부 또는 치료 효과의 부호와 크기가 하위 집합에 걸쳐 연구자가 인정하거나 이해할 수 없는 방식으로 변하는지 여부에 달려 있다.[11] Athey 와 Imbens, Athey와 Wager는 이질적인 치료 효과에 대한 귀납적 이해를 위한 기계 학습 기술을 개척했다.[12][13]

각주[편집]

  1. Dinardo, J. (2008). 〈natural experiments and quasi-natural experiments〉. 《The New Palgrave Dictionary of Economics》. 856–859쪽. doi:10.1057/9780230226203.1162. ISBN 978-0-333-78676-5. 
  2. Rossi, Peter Henry; Mark W. Lipsey; Howard E. Freeman (2004). 《Evaluation: A Systematic Approach》 7판. SAGE. 237쪽. ISBN 978-0-7619-0894-4. 
  3. Gribbons, Barry; Herman, Joan (1997). “True and quasi-experimental designs”. 《Practical Assessment, Research & Evaluation》 5 (14). 2013년 5월 2일에 원본 문서에서 보존된 문서. 
  4. Morgan, G. A. (2000). “Quasi-Experimental Designs”. 《Journal of the American Academy of Child & Adolescent Psychiatry》 39 (6): 794–796. doi:10.1097/00004583-200006000-00020. PMID 10846316. 
  5. CHARM-Controlled Experiments 보관됨 2012-07-22 - 웨이백 머신
  6. DeRue, Scott (September 2012). “A Quasi Experimental Study of After-Event Reviews”. 《Journal of Applied Psychology》 97 (5): 997–1015. doi:10.1037/a0028244. PMID 22506721. 
  7. Lynda S. Robson, Harry S. Shannon, Linda M. Goldenhar, Andrew R. Hale (2001)Quasi-experimental and experimental designs: more powerful evaluation designs 보관됨 9월 16, 2012 - 웨이백 머신, Chapter 4 of Guide to Evaluating the Effectiveness of Strategies for Preventing Work Injuries: How to show whether a safety intervention really works 보관됨 3월 28, 2012 - 웨이백 머신, Institute for Work & Health, Canada
  8. Research Methods: Planning: Quasi-Exper. Designs 보관됨 2013-03-18 - 웨이백 머신
  9. Cook, Thomas D. and Donald T. Campbell (1979), Quasi-experimentation: Design & Analysis Issues for Field Settings. Boston: Houghton-Mifflin
  10. Lynch, John G., Jr. (1982), "On the External Validity of Experiments in Consumer Research," Journal of Consumer Research, 9 (December), 225–239.
  11. Cronbach, Lee J. (1975),"Beyond the two disciplines of scientific psychology" American Psychologist 30 (2), 116.
  12. Athey, Susan, and Guido Imbens (2016), "Recursive partitioning for heterogeneous causal effects." Proceedings of the National Academy of Sciences 113, (27), 7353–7360.
  13. Wager, Stefan, and Susan Athey (2018), "Estimation and inference of heterogeneous treatment effects using random forests." Journal of the American Statistical Association 113 (523), 1228–1242.