Признаки и классы📚

В контексте датасета различают признаки (features) и классы (labels/targets).

Признаки

Это столбцы матрицы данных, описывающие свойства объектов
Обычно числовые или категориальные
В Wine dataset, например: содержание алкоголя, кислотность, цветность и т.д.
В NumPy: X = data.data → форма (n_samples, n_features)

Классы (метки)

Это целевая переменная, которую мы хотим предсказать или классифицировать
В Wine dataset: три вида вина
В NumPy: y = data.target → форма (n_samples,)
Примеры значений: 0, 1, 2

Соотношение:

Каждая строка объекта имеет значения признаков и одну метку класса
Алгоритмы обучения используют признаки как вход, а класс — как целевую переменную

Пример:

from sklearn.datasets import load_wine
data = load_wine()
X = data.data
y = data.target
 
print(X[0])  # признаки первого вина
print(y[0])  # класс первого вина

Коротко:
признаки — это столбцы данных, описывающие объекты, классы — метки, которые мы хотим предсказать.