편향 (통계학)

통계적 편향은 결과와 사실 간의 차이를 유발하는 체계적인 경향이다. 편향은 데이터의 출처, 선택한 추정자, 데이터 분석 방법을 포함하여 데이터 분석 프로세스의 수에 존재한다. 편향은 예를 들어 사람들의 구매 습관을 조사하기 위해 결과에 심각한 영향을 미칠 수 있다. 표본 크기가 충분히 크지 않으면 결과가 모든 사람들의 구매 습관을 대표하지 않을 수 있다. 즉, 설문조사 결과와 실제 결과 간에 차이가 있을 수 있다. 따라서 통계적 편향의 원인을 이해하면 관찰된 결과가 실제 결과에 가까운지 여부를 평가하는 데 도움이 될 수 있다.

편향은 정확성(기기 고장/부적절함), 데이터 부족 또는 필사 실수(오타)와 같은 다른 실수와 구별될 수 있다. 편향은 데이터 선택이 수집 기준에 의해 왜곡되었을 수 있음을 의미한다.

선택 편향은 개인이 다른 사람보다 연구 대상으로 선택될 가능성이 더 높고 표본을 편향시키는 것과 관련이 있다.

통계적 가설 검정에서 1종 오류와 2종 오류는 잘못된 결과를 낳다.^[1] 1종 오류는 귀무가설이 맞으나 기각될 때 발생한다. 예를 들어, 평균 운전 제한 속도가 75~85km/h이면 과속으로 간주되지 않는다는 귀무 가설을 가정한다. 반면에 평균 속도가 그 범위에 있지 않으면 과속으로 간주된다. 누군가 평균 운전 속도가 7km/h인 티켓을 받으면 의사 결정자는 1종 오류를 범한 것이다. 즉, 평균 주행속도는 귀무가설을 만족하지만 기각된다. 이에 반해 2종 오류는 귀무가설이 옳지 않고 받아들여질 때 발생한다.

추정량 편향은 추정 기대값과 추정되는 매개변수의 실제 값 간의 차이이다. 이론적으로 편향된 추정량보다 편향되지 않은 추정량이 선호되지만 실제로는 편향이 작은 편향된 추정량이 자주 사용된다. 편향된 추정량은 여러 가지 이유로 더 유용할 수 있다. 첫째, 무편향 추정량은 추가 가정 없이는 존재할 수 없다. 둘째, 때로는 편향되지 않은 추정량이 계산하기 어렵다. 셋째, 편향된 추정량은 평균 제곱 오차 값이 더 낮을 수 있다.

보고 편향은 특정 종류의 관찰이 보고될 가능성이 더 높아지도록 데이터 가용성의 왜곡을 포함한다.

각주[편집]

↑ Neyman, Jerzy; Pearson, Egon S. (1936). “Contributions to the theory of testing statistical hypotheses”. 《Statistical Research Memoirs》 1: 1–37.

[1] Neyman, Jerzy; Pearson, Egon S. (1936). “Contributions to the theory of testing statistical hypotheses”. 《Statistical Research Memoirs》 1: 1–37.

[1]