В контексте машинного обучения и линейной алгебры признак как столбец матрицы — это стандартное представление данных, при котором каждый признак хранится в отдельном столбце матрицы наблюдений.
Обозначения:
– — матрица данных
– — число объектов (наблюдений)
– — число признаков
Структура:
– строка — один объект
– столбец — один признак
Пример в NumPy:
import numpy as np
X = np.array([
[170, 65],
[180, 80],
[160, 55]
])Здесь:
– 3 объекта
– 2 признака
– первый столбец — рост
– второй столбец — вес
Почему признаки представляют столбцами:
- Линейные модели
Вектор весов умножается на матрицуX:
что соответствует линейной комбинации признаков.
2. Независимая обработка признаков
Масштабирование, центрирование и нормировка выполняются по столбцам.
3. Единая форма для алгоритмов
Большинство ML-алгоритмов и библиотек ожидают формат
(n_samples, n_features).
Связь с масштабированием:
– масштабирование применяется к каждому столбцу отдельно
– нельзя смешивать признаки между собой
– операции делаются по axis=0
Пример:
X_centered = X - X.mean(axis=0)Каждый признак приводится к нулевому среднему независимо от других.
Коротко:
признак — это столбец матрицы данных, и именно по столбцам выполняется масштабирование и большинство статистических преобразований.