Scatter-графики признаков — это двумерные графики, на которых каждая точка представляет объект, а координаты отражают значения двух выбранных признаков.
Цель:
- Визуально оценить распределение объектов
- Проверить разделимость классов
- Обнаружить выбросы или аномалии
Пример с Wine dataset:
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine
data = load_wine()
X = data.data
y = data.target
# Выбираем два признака для визуализации
feature_x = 0 # alcohol
feature_y = 1 # malic_acid
plt.scatter(X[:, feature_x], X[:, feature_y], c=y, cmap='viridis', edgecolor='k')
plt.xlabel(data.feature_names[feature_x])
plt.ylabel(data.feature_names[feature_y])
plt.title("Scatter-график признаков")
plt.colorbar(label='Класс')
plt.show()Особенности:
- Цветовая разметка (
c=y) показывает принадлежность объекта к классу. - Выбор признаков влияет на вид разделимости. Разные пары могут давать разное понимание структуры данных.
- Множество признаков — строят несколько scatter-пар или используют матрицу scatter-плотов (
pairplotв seaborn).
Выводы:
- Scatter-графики — простой способ изучить структуру данных в 2D
- Помогают выявить кластеры, перекрытия классов и аномалии
Коротко:
scatter-график признаков отображает объекты по двум признакам, позволяя визуально оценить их распределение и разделимость классов.