Айдагулов Рустем Римович
к.ф.-м.н., старший научный сотрудник кафедры теоретической информатики механико-математического факультета МГУ
Главацкий Сергей Тимофеевич
к.ф.-м.н., доцент кафедры теоретической информатики механико-математического факультета МГУ
Михалев Александр Васильевич
д.ф.-м.н., заведующий кафедрой теоретической информатики механико-математического факультета МГУ
Принято считать, что термин «кластеризация» (сгусток, пучок), был предложен математиком Р. Трионом. Впоследствии возник целый ряд терминов, которые рассматриваются как синонимы термина «кластерный анализ» или «автоматическая классификация». У кластерного анализа очень широкий спектр применения, его методы используются в медицине, химии, археологии, маркетинге, геологии и других дисциплинах. Кластеризация состоит в объединении в группы схожих объектов, и эта задача является одной из фундаментальных в области анализа данных. Обычно под кластеризацией понимается разбиение заданного множества точек некоторого метрического пространства на подмножества таким образом, чтобы близкие точки попали в одну группу, а дальние — в разные. Изначально это требование является достаточно противоречивым. Интуитивное разбиение часто базируется на соображении связности получаемых групп, исходя из плотности распределения точек. В данной работе предлагается метод кластеризации, основанный на этой идее.
Метод осреднения используется в решении задач широкого круга областей естествознания, связанных с изучением свойств неоднородных сред. Понятие нелинейного осреднения (называемого сейчас «осреднением по Колмогорову») было введено А. Н. Колмогоровым. Далее этот метод был развит в трудах его последователей (Бахвалов Н.С., Маслов В.П. и др.) в широком спектре приложений в механике, квантовой механике, экономике и т. д.
Указанное осреднение относится к глобальному типу, определяющему среднее значение для набора точек типа центра масс. Но для задачи вычисления плотности расположения точек в произвольной области такое глобальное осреднение не подходит: плотность по определению получается не делением вычисляемой величины на количество точек (как в случае глобального среднего), а, наоборот, отношением количества точек к содержащему их объему. При этом также следует учесть, что размерность метрического подпространства дискретно распределенных точек, вообще говоря, является локальным свойством, как и плотность распределения. Соответственно, размерность должна определяться через локальное распределение.
В докладе предложен метод определения реальной локальной размерности пространства данных. Размерность пространства является локальной топологической характеристикой. Для топологических пространств размерность пространства определил П. С. Александров через пересечения открытого покрытия. Для наших целей удобнее использовать размерность по Хаусдорфу, определяемую как степень роста величины минимального количества шаров радиуса ε, необходимого для покрытия множества точек данных, при ε → 0. Так как точек n конечно, то при любом ε необходимое количество шаров не превосходит n. Тем не менее, нужную размерность можно определить через тангенс угла в линейной аппроксимации логарифма от количества точек в зависимости от значения логарифма радиуса.
Предложенный метод осреднения заключается в осреднении множества точек с заданной δ-функцией плотности распределения. Выбирая далее срезы множества точек по определенному уровню плотности, мы получим разбиение на кластеры. Этот метод свободен от таких недостатков, как зависимость от нумерации точек, и как существенное изменение разбиения на кластеры при малом изменении позиции даже одной точки.