В гистограмме число bins (интервалов) напрямую влияет на вид и информативность графика.
Основные моменты:
- Малое число bins
- Бины широкие → значения сильно агрегируются
- Потеря деталей распределения
- График «грубый», может скрывать пики или выбросы
Пример: bins=5 для 1000 точек — видно только общую форму, но тонкие детали теряются
- Большое число bins
- Бины узкие → отображаются мелкие особенности
- Может появляться «шум» из-за случайных колебаний выборки
- Гистограмма становится «зубчатой» и трудно читаемой
- Оптимальный выбор
- Зависит от размера выборки и желаемой наглядности
- Часто используют эмпирические правила:
- Сте́рджес:
bins = ceil(log2(n) + 1) - Скота́та:
bins ≈ 2 * n^(1/3) - Для больших выборок можно подбирать вручную, чтобы увидеть структуру
- Сте́рджес:
- Влияние на выводы
- Слишком мало bins → распределение кажется сглаженным, могут пропасть пики
- Слишком много bins → «шум» может замаскировать реальный тренд
- Важно выбирать так, чтобы график отражал структуру данных, а не случайные флуктуации
Пример с Matplotlib:
import numpy as np
import matplotlib.pyplot as plt
data = np.random.normal(0, 1, 1000)
plt.hist(data, bins=5)
plt.title("Мало bins")
plt.show()
plt.hist(data, bins=50)
plt.title("Много bins")
plt.show()Коротко:
число bins определяет детализацию гистограммы: меньшее — сглаживает, большее — показывает шум; важно выбирать оптимальное, чтобы визуализация отражала структуру данных.