В контексте машинного обучения и линейной алгебры признак как столбец матрицы — это стандартное представление данных, при котором каждый признак хранится в отдельном столбце матрицы наблюдений.

Обозначения:

— матрица данных
— число объектов (наблюдений)
— число признаков

Структура:

– строка — один объект
– столбец — один признак

Пример в NumPy:

import numpy as np
 
X = np.array([
    [170, 65],
    [180, 80],
    [160, 55]
])

Здесь:

– 3 объекта
– 2 признака
– первый столбец — рост
– второй столбец — вес

Почему признаки представляют столбцами:

  1. Линейные модели
    Вектор весов умножается на матрицу X:
что соответствует линейной комбинации признаков.

2. Независимая обработка признаков
Масштабирование, центрирование и нормировка выполняются по столбцам. 3. Единая форма для алгоритмов
Большинство ML-алгоритмов и библиотек ожидают формат
(n_samples, n_features).

Связь с масштабированием:

– масштабирование применяется к каждому столбцу отдельно
– нельзя смешивать признаки между собой
– операции делаются по axis=0

Пример:

X_centered = X - X.mean(axis=0)

Каждый признак приводится к нулевому среднему независимо от других.

Коротко:
признак — это столбец матрицы данных, и именно по столбцам выполняется масштабирование и большинство статистических преобразований.