Признак как столбец матрицы📚

В контексте машинного обучения и линейной алгебры признак как столбец матрицы — это стандартное представление данных, при котором каждый признак хранится в отдельном столбце матрицы наблюдений.

Обозначения:

– $X \in R^{n \times p}$ — матрица данных
– $n$ — число объектов (наблюдений)
– $p$ — число признаков

Структура:

– строка $X [i, :]$ — один объект
– столбец $X [:, j]$ — один признак

Пример в NumPy:

import numpy as np
 
X = np.array([
    [170, 65],
    [180, 80],
    [160, 55]
])

Здесь:

– 3 объекта
– 2 признака
– первый столбец — рост
– второй столбец — вес

Почему признаки представляют столбцами:

Линейные модели
Вектор весов $w \in R^{p}$ умножается на матрицу X:

Xw

что соответствует линейной комбинации признаков.

2. Независимая обработка признаков
Масштабирование, центрирование и нормировка выполняются по столбцам. 3. Единая форма для алгоритмов
Большинство ML-алгоритмов и библиотек ожидают формат
(n_samples, n_features).

Связь с масштабированием:

– масштабирование применяется к каждому столбцу отдельно
– нельзя смешивать признаки между собой
– операции делаются по axis=0

Пример:

X_centered = X - X.mean(axis=0)

Каждый признак приводится к нулевому среднему независимо от других.

Коротко:
признак — это столбец матрицы данных, и именно по столбцам выполняется масштабирование и большинство статистических преобразований.

База знаний

Проводник

Признак как столбец матрицы

Вид графа

Обратные ссылки