Нормальное распределение (гауссово распределение) — это непрерывное распределение случайной величины, при котором значения симметрично распределены вокруг среднего, а большие отклонения встречаются тем реже, чем они дальше от центра.

Интуитивно:
большинство значений сосредоточено около среднего, редкие — далеко от него.

Параметры нормального распределения:

математическое ожидание μ — центр распределения
стандартное отклонение σ — мера разброса

Обозначение:

X ~ N(μ, σ²)

Форма распределения:

– колоколообразная
– симметричная
– одна мода (пик)
– среднее = медиана = мода

Свойства, которые важно знать:

  1. Правило 68–95–99.7

Для нормального распределения:

– ~68% значений лежат в интервале [μ ± 1σ]
– ~95% — в [μ ± 2σ]
– ~99.7% — в [μ ± 3σ]

Это ключевая эвристика для анализа данных.

  1. Линейные преобразования сохраняют нормальность

Если X ~ N(μ, σ²), то:

aX + b ~ N(aμ + b, (aσ)²)
  1. Суммы независимых нормальных величин — нормальны

Это частный случай более общего центрального предельного эффекта.

Почему нормальное распределение встречается так часто:

– шумы и ошибки измерений
– агрегирование множества независимых факторов
– результат действия центральной предельной теоремы

Примеры величин, которые часто приближаются нормальным распределением:

– погрешности измерений
– рост людей
– флуктуации задержек и шумов
– отклонения параметров от номинала

Связь с данными и NumPy:

На практике мы работаем с выборкой и проверяем, насколько она близка к нормальной:

import numpy as np
 
data = np.array([120, 130, 125, 140, 128])
mean = data.mean()
std = data.std()

Генерация нормальных данных:

samples = np.random.normal(loc=0, scale=1, size=1000)

Важно понимать:
нормальное распределение — это модель, а не гарантия. Реальные данные могут быть асимметричны, иметь тяжёлые хвосты или выбросы.

Коротко:
нормальное распределение — это базовая модель непрерывной случайной величины, описывающая симметричный разброс значений вокруг среднего и лежащая в основе огромного числа статистических методов.