Датасет — это структурированная коллекция данных, предназначенная для анализа или обучения моделей.
Основные характеристики:
- Структура
- Обычно данные представлены в виде таблицы: строки — объекты (наблюдения), столбцы — признаки (features)
- Каждый объект содержит значения признаков, а иногда и метку (label, target)
- Признаки и объекты
- Признак — столбец матрицы данных, описывающий какую-либо характеристику объекта
- Объект — строка, отдельный пример в выборке
- Назначение
- Используется для обучения алгоритмов (машинное обучение)
- Для статистического анализа и визуализации
- Для тестирования методов обработки данных
Пример: Wine dataset из sklearn
- 178 объектов (различные вина)
- 13 признаков (например, содержание алкоголя, кислотность)
- Классы — 3 вида вина (метка
target)
from sklearn.datasets import load_wine
data = load_wine()
X = data.data # признаки
y = data.target # меткиX.shape→(178, 13)y.shape→(178,)
Коротко:
датасет — это таблица данных, где строки — объекты, а столбцы — признаки, предназначенная для анализа, визуализации или обучения моделей.