Зависимость максимума от размера выборки📚

Максимум выборки сильно зависит от её размера. Чем больше выборка, тем выше ожидаемое экстремальное значение.

Основные моменты:

Вероятностная интерпретация
Если $X_{1}, \dots, X_{n}$ — независимые одинаково распределённые случайные величины с функцией распределения $F (x)$ , то для максимума $M_{n} = max (X_{1}, \dots, X_{n})$ выполняется:

P (M_{n} \leq x) = P (X_{1} \leq x, \dots, X_{n} \leq x) = F (x)^{n}

– При росте $n$ , $F (x)^{n} \to 0$ для фиксированного $x$ в верхней части распределения
– Вероятность того, что максимум меньше фиксированного значения, падает

Среднее и медиана максимума растут с n
– Если выборка мала, максимум близок к среднему исходного распределения
– Если выборка большая, шанс встретить «хвостовое» значение возрастает → максимум сдвигается вправо
Нелинейный рост
Для нормального распределения теоретическая аппроксимация максимума:

E [M_{n}] \sim 2 lo g n

– рост медленный (логарифмический), но устойчивый
– дисперсия максимума при этом уменьшается относительно масштаба

Пример на Python

import numpy as np
 
n_values = [10, 100, 1000, 10000]
means = []
 
for n in n_values:
    samples = np.random.normal(0, 1, size=(10000, n))
    maxima = samples.max(axis=1)
    means.append(maxima.mean())
 
print(dict(zip(n_values, means)))

– среднее максимума растёт с увеличением n
– гистограмма максимума сдвигается вправо, становится острее

Ключевая идея:
чем больше размер выборки, тем выше ожидаемое экстремальное значение, потому что растёт вероятность попадания в хвост распределения.

Это фундаментальное свойство всех экстремальных статистик.

База знаний

Проводник

Зависимость максимума от размера выборки

Вид графа

Обратные ссылки