В контексте датасета различают признаки (features) и классы (labels/targets).
- Признаки
- Это столбцы матрицы данных, описывающие свойства объектов
- Обычно числовые или категориальные
- В Wine dataset, например: содержание алкоголя, кислотность, цветность и т.д.
- В NumPy:
X = data.data→ форма(n_samples, n_features)
- Классы (метки)
- Это целевая переменная, которую мы хотим предсказать или классифицировать
- В Wine dataset: три вида вина
- В NumPy:
y = data.target→ форма(n_samples,) - Примеры значений:
0, 1, 2
Соотношение:
- Каждая строка объекта имеет значения признаков и одну метку класса
- Алгоритмы обучения используют признаки как вход, а класс — как целевую переменную
Пример:
from sklearn.datasets import load_wine
data = load_wine()
X = data.data
y = data.target
print(X[0]) # признаки первого вина
print(y[0]) # класс первого винаКоротко:
признаки — это столбцы данных, описывающие объекты, классы — метки, которые мы хотим предсказать.