Нормальное распределение (гауссово распределение) — это непрерывное распределение случайной величины, при котором значения симметрично распределены вокруг среднего, а большие отклонения встречаются тем реже, чем они дальше от центра.
Интуитивно:
большинство значений сосредоточено около среднего, редкие — далеко от него.
Параметры нормального распределения:
– математическое ожидание μ — центр распределения
– стандартное отклонение σ — мера разброса
Обозначение:
X ~ N(μ, σ²)
Форма распределения:
– колоколообразная
– симметричная
– одна мода (пик)
– среднее = медиана = мода
Свойства, которые важно знать:
- Правило 68–95–99.7
Для нормального распределения:
– ~68% значений лежат в интервале [μ ± 1σ]
– ~95% — в [μ ± 2σ]
– ~99.7% — в [μ ± 3σ]
Это ключевая эвристика для анализа данных.
- Линейные преобразования сохраняют нормальность
Если X ~ N(μ, σ²), то:
aX + b ~ N(aμ + b, (aσ)²)
- Суммы независимых нормальных величин — нормальны
Это частный случай более общего центрального предельного эффекта.
Почему нормальное распределение встречается так часто:
– шумы и ошибки измерений
– агрегирование множества независимых факторов
– результат действия центральной предельной теоремы
Примеры величин, которые часто приближаются нормальным распределением:
– погрешности измерений
– рост людей
– флуктуации задержек и шумов
– отклонения параметров от номинала
Связь с данными и NumPy:
На практике мы работаем с выборкой и проверяем, насколько она близка к нормальной:
import numpy as np
data = np.array([120, 130, 125, 140, 128])
mean = data.mean()
std = data.std()Генерация нормальных данных:
samples = np.random.normal(loc=0, scale=1, size=1000)Важно понимать:
нормальное распределение — это модель, а не гарантия. Реальные данные могут быть асимметричны, иметь тяжёлые хвосты или выбросы.
Коротко:
нормальное распределение — это базовая модель непрерывной случайной величины, описывающая симметричный разброс значений вокруг среднего и лежащая в основе огромного числа статистических методов.