Масштабирование признаков нужно, потому что численные алгоритмы чувствительны к масштабу данных, а разные признаки часто измеряются в несопоставимых единицах.
Основные причины:
- Корректная работа оптимизации
Алгоритмы на основе градиентного спуска минимизируют функцию по всем признакам одновременно.
Если один признак имеет масштаб , а другой , то:
– шаги по разным направлениям получаются несбалансированными
– сходимость замедляется или становится нестабильной - Справедливый вклад признаков
Без масштабирования признаки с большими значениями доминируют:
– в линейных моделях
– в расстояниях (kNN, k-means)
– в регуляризации
Модель начинает учитывать не информативность, а размер чисел.
- Корректные расстояния и геометрия
Метрики расстояния предполагают, что оси сопоставимы.
Без масштабирования пространство «искажается». - Численная устойчивость
Масштабирование снижает риск:
– переполнений
– потери точности
– плохо обусловленных матриц
Это особенно важно для матричных операций и PCA.
- Интерпретируемость коэффициентов
После стандартизации коэффициенты модели показывают:
– вклад признака в единицах стандартного отклонения
– проще сравнивать влияние разных признаков
Когда масштабирование обязательно:
– линейная и логистическая регрессия
– SVM
– k-means, kNN
– PCA, спектральные методы
Когда не критично:
– деревья решений и ансамбли на их основе
– модели, использующие только порядок значений
Коротко:
масштабирование делает признаки сопоставимыми, улучшает сходимость оптимизации и обеспечивает корректную геометрию данных для численных алгоритмов.