В гистограмме число bins (интервалов) напрямую влияет на вид и информативность графика.

Основные моменты:

  1. Малое число bins
  • Бины широкие → значения сильно агрегируются
  • Потеря деталей распределения
  • График «грубый», может скрывать пики или выбросы

Пример: bins=5 для 1000 точек — видно только общую форму, но тонкие детали теряются

  1. Большое число bins
  • Бины узкие → отображаются мелкие особенности
  • Может появляться «шум» из-за случайных колебаний выборки
  • Гистограмма становится «зубчатой» и трудно читаемой
  1. Оптимальный выбор
  • Зависит от размера выборки и желаемой наглядности
  • Часто используют эмпирические правила:
    • Сте́рджес: bins = ceil(log2(n) + 1)
    • Скота́та: bins ≈ 2 * n^(1/3)
    • Для больших выборок можно подбирать вручную, чтобы увидеть структуру
  1. Влияние на выводы
  • Слишком мало bins → распределение кажется сглаженным, могут пропасть пики
  • Слишком много bins → «шум» может замаскировать реальный тренд
  • Важно выбирать так, чтобы график отражал структуру данных, а не случайные флуктуации

Пример с Matplotlib:

import numpy as np
import matplotlib.pyplot as plt
 
data = np.random.normal(0, 1, 1000)
 
plt.hist(data, bins=5)
plt.title("Мало bins")
plt.show()
 
plt.hist(data, bins=50)
plt.title("Много bins")
plt.show()

Коротко:
число bins определяет детализацию гистограммы: меньшее — сглаживает, большее — показывает шум; важно выбирать оптимальное, чтобы визуализация отражала структуру данных.