Йерархичното клъстериране се отнася до неконтролирана процедура за обучение, която определя последователни клъстери въз основа на предварително дефинирани клъстери. Работи чрез групиране на данни в дърво от клъстери. Статистика за йерархично клъстериране чрез третиране на всяка точка от данни като отделен клъстер. Крайната точка се отнася до различен набор от клъстери, където всеки клъстер е различен от другия клъстер и обектите във всеки клъстер са еднакви един с друг.
Има два вида йерархично групиране
- Агломеративно йерархично групиране
- Разделящо групиране
Агломеративно йерархично групиране
Агломеративното клъстериране е един от най-често срещаните видове йерархично клъстериране, използвано за групиране на подобни обекти в клъстери. Агломеративното групиране е известно още като AGNES (агломеративно гнездене). При агломеративно групиране всяка точка от данни действа като отделен клъстер и на всяка стъпка обектите с данни се групират по метод отдолу нагоре. Първоначално всеки обект с данни е в своя клъстер. При всяка итерация клъстерите се комбинират с различни клъстери, докато се образува един клъстер.
Алгоритъм за агломеративно йерархично групиране
- Определете приликата между индивидите и всички други клъстери. (Намиране на матрица за близост).
- Разглеждайте всяка точка от данни като отделен клъстер.
- Комбинирайте подобни клъстери.
- Преизчислете матрицата на близост за всеки клъстер.
- Повторете стъпка 3 и стъпка 4, докато получите единичен клъстер.
Нека разберем тази концепция с помощта на графично представяне с помощта на дендрограма.
С помощта на дадена демонстрация можем да разберем как работи действителният алгоритъм. Тук не е направено изчисление, по-долу се приема цялата близост между клъстерите.
Да предположим, че имаме шест различни точки от данни P, Q, R, S, T, V.
Етап 1:
Разгледайте всяка азбука (P, Q, R, S, T, V) като отделен клъстер и намерете разстоянието между отделния клъстер от всички останали клъстери.
Стъпка 2:
Сега обединете сравнимите клъстери в един клъстер. Да кажем, че клъстер Q и клъстер R са подобни един на друг, така че можем да ги обединим във втората стъпка. Накрая получаваме клъстерите [ (P), (QR), (ST), (V)]
Стъпка 3:
Тук преизчисляваме близостта според алгоритъма и комбинираме двата най-близки клъстера [(ST), (V)] заедно, за да образуваме нови клъстери като [(P), (QR), (STV)]
Стъпка 4:
Повторете същия процес. Клъстерите STV и PQ са сравними и комбинирани заедно, за да образуват нов клъстер. Сега имаме [(P), (QQRSTV)].
Стъпка 5:
Накрая, останалите два клъстера се обединяват, за да образуват един клъстер [(PQRSTV)]
Разделящо йерархично групиране
Разделящото йерархично групиране е точно обратното на агломеративното йерархично групиране. При разделящото йерархично клъстериране всички точки от данни се считат за отделен клъстер и при всяка итерация точките от данни, които не са подобни, се отделят от клъстера. Разделените точки от данни се третират като отделен клъстер. Накрая ни остават N клъстера.
Предимства на йерархичното групиране
- Той е лесен за изпълнение и дава най-добри резултати в някои случаи.
- Лесно е и води до йерархия, структура, която съдържа повече информация.
- Не е необходимо да задаваме предварително броя на клъстерите.
Недостатъци на йерархичното групиране
- Разбива големите гроздове.
- Трудно е да се борави с различни по размер клъстери и изпъкнали форми.
- Чувствителен е към шум и отклонения.
- Алгоритъмът никога не може да бъде променен или изтрит, след като е бил направен преди това.