В контексте гистограмм и эмпирических распределений переглаживание и шум — это два противоположных эффекта, которые возникают из-за выбора числа бинов или методов визуализации распределения.
1. Переглаживание
- Происходит, когда число бинов слишком мало.
- Детали распределения теряются: пики, ямы и локальные особенности «сглаживаются».
- Гистограмма может казаться слишком равномерной и не отражать реальное распределение.
- Пример: гистограмма с 5 интервалами для большой выборки показывает только общую форму, но скрывает мелкие особенности.
2. Шум
- Происходит, когда число бинов слишком большое или выборка маленькая.
- Каждому небольшому интервалу соответствует мало точек → график «зубчатый» или рваный.
- Появляются случайные колебания, которые не отражают истинную форму распределения, а лишь вариативность конкретной выборки.
- Особенно заметно при малых выборках и очень узких бинах.
Баланс между переглаживанием и шумом
- Оптимальное число бинов выбирается так, чтобы гистограмма показывала структуру данных без лишнего шума.
- Эмпирические правила:
- Стерджес:
bins = ceil(log2(n) + 1) - Скотта:
bins ≈ 2 * n^(1/3)
- Стерджес:
- Иногда используют ядерное сглаживание (KDE) для непрерывного представления, чтобы уменьшить шум, сохранив детали.
Коротко:
переглаживание — потеря деталей при малом числе бинов, шум — случайные колебания при слишком большом числе бинов; задача визуализации — найти баланс между ними.