Датасет — это структурированная коллекция данных, предназначенная для анализа или обучения моделей.

Основные характеристики:

  1. Структура
  • Обычно данные представлены в виде таблицы: строки — объекты (наблюдения), столбцы — признаки (features)
  • Каждый объект содержит значения признаков, а иногда и метку (label, target)
  1. Признаки и объекты
  • Признак — столбец матрицы данных, описывающий какую-либо характеристику объекта
  • Объект — строка, отдельный пример в выборке
  1. Назначение
  • Используется для обучения алгоритмов (машинное обучение)
  • Для статистического анализа и визуализации
  • Для тестирования методов обработки данных

Пример: Wine dataset из sklearn

  • 178 объектов (различные вина)
  • 13 признаков (например, содержание алкоголя, кислотность)
  • Классы — 3 вида вина (метка target)
from sklearn.datasets import load_wine
 
data = load_wine()
X = data.data        # признаки
y = data.target      # метки
  • X.shape(178, 13)
  • y.shape(178,)

Коротко:
датасет — это таблица данных, где строки — объекты, а столбцы — признаки, предназначенная для анализа, визуализации или обучения моделей.