Многомерные данные — это данные, где каждый объект описывается несколькими признаками одновременно.
Основные моменты:
- Структура
- Представляются матрицей
Xформы(n_samples, n_features) n_samples— число объектовn_features— число признаков- Каждая строка — объект, каждая колонка — признак
- Пример
В Wine dataset:
- 178 вин → 178 строк
- 13 признаков (алкоголь, кислотность, цветность и др.) → 13 столбцов
X.shape = (178, 13)
- Особенности анализа
- Признаки могут быть коррелированы
- Для визуализации часто используют методы снижения размерности (PCA, t-SNE)
- Масштабирование делается по столбцам (
axis=0)
- Зачем важно понимать
- Многомерность определяет сложность задачи
- Методы расстояний (kNN, кластеризация) и линейные модели зависят от всех признаков одновременно
- Распределение в многомерном пространстве отличается от одномерного
Коротко:
многомерные данные — это когда каждый объект описывается несколькими признаками, формируя матрицу объектов и признаков, что создаёт пространство высокой размерности для анализа или обучения моделей.