logo

Йерархично групиране в извличането на данни

Йерархичното клъстериране се отнася до неконтролирана процедура за обучение, която определя последователни клъстери въз основа на предварително дефинирани клъстери. Работи чрез групиране на данни в дърво от клъстери. Статистика за йерархично клъстериране чрез третиране на всяка точка от данни като отделен клъстер. Крайната точка се отнася до различен набор от клъстери, където всеки клъстер е различен от другия клъстер и обектите във всеки клъстер са еднакви един с друг.

Има два вида йерархично групиране

  • Агломеративно йерархично групиране
  • Разделящо групиране

Агломеративно йерархично групиране

Агломеративното клъстериране е един от най-често срещаните видове йерархично клъстериране, използвано за групиране на подобни обекти в клъстери. Агломеративното групиране е известно още като AGNES (агломеративно гнездене). При агломеративно групиране всяка точка от данни действа като отделен клъстер и на всяка стъпка обектите с данни се групират по метод отдолу нагоре. Първоначално всеки обект с данни е в своя клъстер. При всяка итерация клъстерите се комбинират с различни клъстери, докато се образува един клъстер.

Алгоритъм за агломеративно йерархично групиране

  1. Определете приликата между индивидите и всички други клъстери. (Намиране на матрица за близост).
  2. Разглеждайте всяка точка от данни като отделен клъстер.
  3. Комбинирайте подобни клъстери.
  4. Преизчислете матрицата на близост за всеки клъстер.
  5. Повторете стъпка 3 и стъпка 4, докато получите единичен клъстер.

Нека разберем тази концепция с помощта на графично представяне с помощта на дендрограма.

С помощта на дадена демонстрация можем да разберем как работи действителният алгоритъм. Тук не е направено изчисление, по-долу се приема цялата близост между клъстерите.

Да предположим, че имаме шест различни точки от данни P, Q, R, S, T, V.

Йерархично групиране в извличането на данни

Етап 1:

Разгледайте всяка азбука (P, Q, R, S, T, V) като отделен клъстер и намерете разстоянието между отделния клъстер от всички останали клъстери.

Стъпка 2:

Сега обединете сравнимите клъстери в един клъстер. Да кажем, че клъстер Q и клъстер R са подобни един на друг, така че можем да ги обединим във втората стъпка. Накрая получаваме клъстерите [ (P), (QR), (ST), (V)]

Стъпка 3:

Тук преизчисляваме близостта според алгоритъма и комбинираме двата най-близки клъстера [(ST), (V)] заедно, за да образуваме нови клъстери като [(P), (QR), (STV)]

Стъпка 4:

Повторете същия процес. Клъстерите STV и PQ са сравними и комбинирани заедно, за да образуват нов клъстер. Сега имаме [(P), (QQRSTV)].

Стъпка 5:

Накрая, останалите два клъстера се обединяват, за да образуват един клъстер [(PQRSTV)]

Разделящо йерархично групиране

Разделящото йерархично групиране е точно обратното на агломеративното йерархично групиране. При разделящото йерархично клъстериране всички точки от данни се считат за отделен клъстер и при всяка итерация точките от данни, които не са подобни, се отделят от клъстера. Разделените точки от данни се третират като отделен клъстер. Накрая ни остават N клъстера.

Йерархично групиране в извличането на данни

Предимства на йерархичното групиране

  • Той е лесен за изпълнение и дава най-добри резултати в някои случаи.
  • Лесно е и води до йерархия, структура, която съдържа повече информация.
  • Не е необходимо да задаваме предварително броя на клъстерите.

Недостатъци на йерархичното групиране

  • Разбива големите гроздове.
  • Трудно е да се борави с различни по размер клъстери и изпъкнали форми.
  • Чувствителен е към шум и отклонения.
  • Алгоритъмът никога не може да бъде променен или изтрит, след като е бил направен преди това.