Гистограмма — это графическое представление распределения данных, показывающее, как часто встречаются различные значения или диапазоны значений.
Идея проста:
- диапазон значений разбивается на интервалы (бины)
- подсчитывается число элементов, попадающих в каждый интервал
- строится столбчатая диаграмма, где высота столбца = частота значений в бине
Примеры применения:
- анализ распределения числовых данных
- оценка формы распределения (симметрия, скошенность, пиковость)
- визуальная проверка нормальности или других распределений
- сравнение разных выборок
Пример с NumPy и Matplotlib:
import numpy as np
import matplotlib.pyplot as plt
data = np.random.normal(loc=0, scale=1, size=1000)
plt.hist(data, bins=20) # 20 интервалов
plt.show()Что показывает гистограмма:
- частоту или относительную частоту значений на каждом интервале
- «плотность» данных и наличие пиков, пропусков, выбросов
Особенности:
- ширина бинов влияет на вид графика
- для непрерывных данных бины делают интервалами
- для дискретных данных можно строить бины для каждого возможного значения
Коротко:
гистограмма — это способ визуализировать распределение данных через столбцы, где каждый столбец отражает, сколько элементов попало в соответствующий интервал значений.