Многомерные данные — это данные, где каждый объект описывается несколькими признаками одновременно.

Основные моменты:

  1. Структура
  • Представляются матрицей X формы (n_samples, n_features)
  • n_samples — число объектов
  • n_features — число признаков
  • Каждая строка — объект, каждая колонка — признак
  1. Пример
    В Wine dataset:
  • 178 вин → 178 строк
  • 13 признаков (алкоголь, кислотность, цветность и др.) → 13 столбцов
  • X.shape = (178, 13)
  1. Особенности анализа
  • Признаки могут быть коррелированы
  • Для визуализации часто используют методы снижения размерности (PCA, t-SNE)
  • Масштабирование делается по столбцам (axis=0)
  1. Зачем важно понимать
  • Многомерность определяет сложность задачи
  • Методы расстояний (kNN, кластеризация) и линейные модели зависят от всех признаков одновременно
  • Распределение в многомерном пространстве отличается от одномерного

Коротко:
многомерные данные — это когда каждый объект описывается несколькими признаками, формируя матрицу объектов и признаков, что создаёт пространство высокой размерности для анализа или обучения моделей.