Квантиль как устойчивая мера используется для оценки распределения данных, особенно когда выборка содержит выбросы или экстремальные значения.
Основная идея:
- Определение
Квантиль уровня — это значение , ниже которого находится доля данных:
- Устойчивость к выбросам
– Среднее сильно смещается при экстремальных значениях
– Медиана (квантиль 0.5) и другие квантильные показатели не меняются, если выбросы находятся вне основной массы данных
Пример: для выборки [1,2,3,1000]
– среднее ≈ 251, сильно завышено
– медиана = 2.5, отражает центр большинства данных
-
Сравнение с другими статистиками
– Среднее = «чувствительная» характеристика
– Квантиль = «устойчивая» характеристика
– Диапазон межквартильного размаха — также устойчивая мера разброса -
Применение
– Оценка положения центра данных при выбросах
– Построение коробчатых диаграмм (boxplot)
– Сравнение распределений разных выборок, особенно с тяжёлыми хвостами
В NumPy:
import numpy as np
data = np.array([1, 2, 3, 1000])
median = np.quantile(data, 0.5) # медиана
q1 = np.quantile(data, 0.25) # первый квартиль
q3 = np.quantile(data, 0.75) # третий квартильКоротко:
квантиль — устойчивая мера распределения, которая отражает характерные уровни данных и не смещается сильно при наличии выбросов.