Максимум выборки сильно зависит от её размера. Чем больше выборка, тем выше ожидаемое экстремальное значение.
Основные моменты:
- Вероятностная интерпретация
Если — независимые одинаково распределённые случайные величины с функцией распределения , то для максимума выполняется:
– При росте , для фиксированного в верхней части распределения
– Вероятность того, что максимум меньше фиксированного значения, падает
- Среднее и медиана максимума растут с n
– Если выборка мала, максимум близок к среднему исходного распределения
– Если выборка большая, шанс встретить «хвостовое» значение возрастает → максимум сдвигается вправо - Нелинейный рост
Для нормального распределения теоретическая аппроксимация максимума:
– рост медленный (логарифмический), но устойчивый
– дисперсия максимума при этом уменьшается относительно масштаба
- Пример на Python
import numpy as np
n_values = [10, 100, 1000, 10000]
means = []
for n in n_values:
samples = np.random.normal(0, 1, size=(10000, n))
maxima = samples.max(axis=1)
means.append(maxima.mean())
print(dict(zip(n_values, means)))– среднее максимума растёт с увеличением n
– гистограмма максимума сдвигается вправо, становится острее
Ключевая идея:
чем больше размер выборки, тем выше ожидаемое экстремальное значение, потому что растёт вероятность попадания в хвост распределения.
Это фундаментальное свойство всех экстремальных статистик.