Scatter-графики признаков — это двумерные графики, на которых каждая точка представляет объект, а координаты отражают значения двух выбранных признаков.

Цель:

Пример с Wine dataset:

import matplotlib.pyplot as plt
from sklearn.datasets import load_wine
 
data = load_wine()
X = data.data
y = data.target
 
# Выбираем два признака для визуализации
feature_x = 0  # alcohol
feature_y = 1  # malic_acid
 
plt.scatter(X[:, feature_x], X[:, feature_y], c=y, cmap='viridis', edgecolor='k')
plt.xlabel(data.feature_names[feature_x])
plt.ylabel(data.feature_names[feature_y])
plt.title("Scatter-график признаков")
plt.colorbar(label='Класс')
plt.show()

Особенности:

  1. Цветовая разметка (c=y) показывает принадлежность объекта к классу.
  2. Выбор признаков влияет на вид разделимости. Разные пары могут давать разное понимание структуры данных.
  3. Множество признаков — строят несколько scatter-пар или используют матрицу scatter-плотов (pairplot в seaborn).

Выводы:

  • Scatter-графики — простой способ изучить структуру данных в 2D
  • Помогают выявить кластеры, перекрытия классов и аномалии

Коротко:
scatter-график признаков отображает объекты по двум признакам, позволяя визуально оценить их распределение и разделимость классов.