Квантиль как устойчивая мера используется для оценки распределения данных, особенно когда выборка содержит выбросы или экстремальные значения.

Основная идея:

  1. Определение
    Квантиль уровня — это значение , ниже которого находится доля данных:
  1. Устойчивость к выбросам
    – Среднее сильно смещается при экстремальных значениях
    – Медиана (квантиль 0.5) и другие квантильные показатели не меняются, если выбросы находятся вне основной массы данных

Пример: для выборки [1,2,3,1000]
– среднее ≈ 251, сильно завышено
– медиана = 2.5, отражает центр большинства данных

  1. Сравнение с другими статистиками
    – Среднее = «чувствительная» характеристика
    – Квантиль = «устойчивая» характеристика
    – Диапазон межквартильного размаха — также устойчивая мера разброса

  2. Применение
    – Оценка положения центра данных при выбросах
    – Построение коробчатых диаграмм (boxplot)
    – Сравнение распределений разных выборок, особенно с тяжёлыми хвостами

В NumPy:

import numpy as np
 
data = np.array([1, 2, 3, 1000])
median = np.quantile(data, 0.5)  # медиана
q1 = np.quantile(data, 0.25)     # первый квартиль
q3 = np.quantile(data, 0.75)     # третий квартиль

Коротко:
квантиль — устойчивая мера распределения, которая отражает характерные уровни данных и не смещается сильно при наличии выбросов.