Линейная модель имеет несколько ключевых ограничений, которые влияют на применимость и точность прогнозов:
- Линейная зависимость
- Предполагается, что целевая переменная линейно связана с признаками:
- Если зависимость сложная или нелинейная, модель будет неточной.
- Независимость признаков
- Коррелированные признаки (мультиколлинеарность) приводят к нестабильным коэффициентам и затрудняют интерпретацию.
- Чувствительность к выбросам
- Метод наименьших квадратов минимизирует квадраты ошибок → большие выбросы сильно влияют на модель.
- Стационарность и гомоскедастичность
- Ошибки должны быть примерно одинаковы по дисперсии для всех объектов (гомоскедастичность).
- Если дисперсия ошибок зависит от признаков, оценки становятся менее надёжными.
- Чувствительность к масштабу признаков
- Признаки разных масштабов могут «доминировать» без стандартизации.
- Ограничения на типы данных
- Работает с числовыми признаками. Категориальные нужно кодировать (one-hot, label encoding).
- Не подходит для сложных структур
- Например, текст, изображения, временные ряды со сложной нелинейной зависимостью требуют других моделей (деревья, нейросети, kernel методы).
Коротко:
линейная модель ограничена линейностью, чувствительна к коррелированным признакам и выбросам, требует числовых и сопоставимых по масштабу признаков, и плохо работает с сложными нелинейными зависимостями.