[Python - matplotlib] 01.box-plot
박스 플롯 또는 박스-위스커 플롯 (Box - Whisker plot)은 수치 데이터를 표현하는 하나의 방식입니다.

일반적으로 박스 플롯은 전체 데이터로부터 얻어진 아래의 다섯가지 요약 수치를 사용해서 그려집니다.
- 최솟값
- 제 1사분위 수
- 제 3사분위 수
- 최댓값
box-plot을 사용하면 하나 이상의 데이터 세트를 빠르게 그래픽으로 검사할 수 있습니다. box-plot은 적은 공간을 차지하므로 여러 그룹 또는 데이터 세트 사이의 분포를 비교할 때 특히 유용합니다.
사분위 수는 데이터를 4등분한 지점을 의미합니다. 예를 들어, 제 1사분위 수는 전체 데이터 중 하위 25%에 해당하는 값이고
그리는 방법
- 주어진 데이터에서 각 사분위 수를 계산한다.
- 그래프에서 제 1사분위수와 제 3사분위를 밑변으로 하는 직사각형을 그리고, 제 2사분위에 해당하는 위채에 선분을 긋는다.
- 사분위수 범위(IQR, Q3 - Q1)를 계산한다.
- Q3과 차이가 1.5IQR 이내인 값 중에서 최댓값을 Q3과 직선으로 연결하고, 마찬가지로 Q1과 차이가 1.5IQR 이내인 값 중에서 최솟값을 Q1과 연결한다.
- Q3보다 1.5IQR 이상 초과하는 값과 Q1 보다 Q1보다 1.5IQR 이상 미달하는 값은 점이나 원, 별표 등으로 따로 표시한다.(이상치 점)
box-plot에 대해서 몇 가지 알아보았습니다. 이를 계기로 그래프를 정확히 이해하고 해석할 수 있는 좋은 계기가 되었습니다. 이는 위키백과를 참고하여 작성하였습니다.