Частотный массив — это способ представления данных через количество появлений каждого значения или интервала в выборке.
Идея: вместо хранения всех исходных наблюдений мы считаем, сколько раз встречается каждое значение (для дискретных данных) или интервал (для непрерывных).
Пример с дискретными данными в NumPy:
import numpy as np
data = np.array([1, 2, 2, 3, 3, 3, 4])
values, counts = np.unique(data, return_counts=True)
print(values) # [1 2 3 4]
print(counts) # [1 2 3 1]Здесь:
values— уникальные значения данныхcounts— частота каждого значения- пары
(values[i], counts[i])образуют частотный массив
Для непрерывных данных используют интервальные бины:
hist, bin_edges = np.histogram(data, bins=4)hist— частоты попадания в каждый интервалbin_edges— границы интервалов
Назначение частотного массива:
- Сжатое представление данных — хранится меньше информации, но достаточно для анализа распределения.
- Построение гистограмм — визуализирует распределение через столбцы.
- Расчёт статистик — среднее, дисперсия, квантиль можно вычислить из частот, не возвращаясь к исходной выборке.
Коротко:
частотный массив — это таблица, которая хранит, сколько раз каждое значение или интервал встречается в данных, позволяя компактно и наглядно представлять распределение.