В контексте гистограмм и эмпирических распределений переглаживание и шум — это два противоположных эффекта, которые возникают из-за выбора числа бинов или методов визуализации распределения.

1. Переглаживание

  • Происходит, когда число бинов слишком мало.
  • Детали распределения теряются: пики, ямы и локальные особенности «сглаживаются».
  • Гистограмма может казаться слишком равномерной и не отражать реальное распределение.
  • Пример: гистограмма с 5 интервалами для большой выборки показывает только общую форму, но скрывает мелкие особенности.

2. Шум

  • Происходит, когда число бинов слишком большое или выборка маленькая.
  • Каждому небольшому интервалу соответствует мало точек → график «зубчатый» или рваный.
  • Появляются случайные колебания, которые не отражают истинную форму распределения, а лишь вариативность конкретной выборки.
  • Особенно заметно при малых выборках и очень узких бинах.

Баланс между переглаживанием и шумом

  • Оптимальное число бинов выбирается так, чтобы гистограмма показывала структуру данных без лишнего шума.
  • Эмпирические правила:
    • Стерджес: bins = ceil(log2(n) + 1)
    • Скотта: bins ≈ 2 * n^(1/3)
  • Иногда используют ядерное сглаживание (KDE) для непрерывного представления, чтобы уменьшить шум, сохранив детали.

Коротко:
переглаживание — потеря деталей при малом числе бинов, шум — случайные колебания при слишком большом числе бинов; задача визуализации — найти баланс между ними.