Въведение
Машинното обучение реформира начина, по който обработваме и изследваме данни, а алгоритмите на дървото на решенията са известно решение за задачи за класификация и регресия. Индексът на Джини, наричан иначе примес на Джини или коефициент на Джини, е значителна мярка за примеси, използвана в алгоритмите на дървото на решенията. В тази статия ще проучим изчерпателно идеята за Gini Index, неговата числена формула и приложенията му в машинното обучение. По същия начин ще противопоставим индекса Джини и други мерки за примеси, ще говорим за неговите ограничения и предимства и ще проверим контекстуалните анализи на приложенията му в реалния свят. Най-накрая ще представим бъдещите лагери за изследване тук.
Какво е Gini Index?
Индексът Джини е съотношение на нечистотии или неравенство в статистически и парични настройки. В машинното обучение се използва като мярка за примеси в алгоритмите на дървото на решенията за класификационни задачи. Индексът Gini измерва вероятността случайно избран тест да бъде неправилно класифициран от алгоритъм на дървото на решенията и стойността му варира от 0 (перфектно чист) до 1 (перфектно нечист).
Формула за индекс на Джини
Индексът Джини е пропорция на примеса или неравенството на циркулация, редовно използвана като мярка за примеси в алгоритмите на дървото на решенията. По отношение на дърветата на решенията, индексът Gini се използва за определяне на най-добрата характеристика за разделяне на данните във всеки възел на дървото.
Формулата за индекса на Джини е както следва:
където pi е вероятността нещо да има място в определен клас.
Например, трябва да разгледаме проблем с двоична класификация с два класа An и B. Ако вероятността за клас An е p и вероятността за клас B е (1-p), тогава индексът Gini може да се изчисли като :
Стойността на индекса Gini варира от 0,0 до 0,5 за проблеми с двоична класификация, където 0,0 показва идеално чист възел (всички примери имат място с подобен клас), а 0,5 показва идеално нечист възел (тестовете са равномерно разпределени в двата класа ).
Използване на индекса на Джини в задачи за класификация
Индексът Джини обикновено се използва като мярка за примеси в алгоритмите на дървото на решенията за проблеми с класификацията. В дърветата на решенията всеки възел адресира елемент и целта е да се разделят данните на подмножества, които по същество са толкова чисти, колкото може да се очаква. Мярката за примеси (като Gini Index) се използва за определяне на най-доброто разделяне на всеки възел.
За да илюстрираме това, трябва да разгледаме пример за дърво на решенията за проблем с двоична класификация. Дървото има два елемента: възраст и доход, като целта е да се предвиди независимо дали дадено лице вероятно ще закупи артикул. Дървото е конструирано с помощта на индекса Джини като мярка за примеси.
В основния възел индексът Gini се изчислява с оглед на вероятността примерите да имат място с клас 0 или клас 1. Възелът се разделя с оглед на компонента, който води до най-високото намаление на индекса Gini. Този цикъл се повтаря рекурсивно за всяко подмножество, докато не бъде изпълнена мярка за спиране.
Дървета на решенията
Дървото на решенията е добре познат алгоритъм за машинно обучение, който се използва както за задачи за класификация, така и за регресия. Моделът се работи чрез рекурсивно разделяне на набора от данни на по-скромни подмножества в светлината на стойностите на информационните акценти, решени да ограничат нечистотиите на следващите подмножества.
Във всеки възел на дървото се взема решение с оглед на стойностите на един от информационните акценти, с крайната цел следващите подмножества да са основно толкова чисти, колкото може да се очаква. Чистотата на подмножество редовно се оценява чрез мярка за примеси, например индекс Джини или ентропия.
Алгоритъмът на дървото на решенията може да се използва както за двоични, така и за многокласови задачи за класификация, както и за задачи за регресия. В задачите за двоична класификация дървото на решенията разделя набора от данни на две подмножества в светлината на стойността на двоична характеристика, като да или не. При задачите за класифициране на няколко класа дървото на решенията разделя набора от данни на многобройни подмножества в светлината на стойностите на директен признак, като червено, зелено или синьо.
Индекс Джини спрямо други мерки за примеси
Освен индекса на Джини, има други мерки за примеси, които обикновено се използват в алгоритмите на дървото за вземане на решения, например ентропия и придобиване на информация.
Ентропия:
В машинното обучение ентропията е пропорция на нередностите или уязвимостта в куп данни. Обикновено се използва като мярка за примеси в алгоритмите на дървото на решенията, заедно с индекса на Джини.
В алгоритмите на дървото за вземане на решения ентропията се използва за определяне на най-добрия компонент за разделяне на данните във всеки възел на дървото. Целта е да се намери елементът, който води до най-голямо намаляване на ентропията, което се отнася до компонента, който дава най-много информация относно проблема с класификацията.
Докато ентропията и индексът на Джини обикновено се използват като мерки за примеси в алгоритмите на дървото на решенията, те имат различни свойства. Ентропията е по-деликатна за циркулацията на имената на класовете и като цяло ще доведе до по-коригирани дървета, докато индексът Джини е по-малко чувствителен към присвояването на класови марки и като цяло ще създаде по-ограничени дървета с по-малко разделения. Решението за мярка за примеси зависи от конкретния проблем и атрибутите на данните.
Информационна печалба:
Придобиването на информация е действие, използвано за оценка на природата на разделянето, докато се изгражда дърво на решенията. Целта на дървото на решенията е да раздели данните на подмножества, които са по същество толкова хомогенни, колкото е възможно, както и за целевата променлива, така че последващото дърво може да се използва, за да се направят точни очаквания за нови данни. Придобиването на информация измерва намаляването на ентропията или примеса, постигнато чрез разделяне. Характеристиката с най-забележимо придобиване на информация се избира като най-добрата характеристика за разделяне във всеки възел на дървото на решенията.
Придобиването на информация е обикновено включена мярка за оценка на естеството на разделянето в дърветата на решенията, но не е тази, върху която трябва да се съсредоточите. Могат да се използват и различни мерки, например индексът на Джини или степента на грешна класификация. Решението за основа на разделяне зависи от основния проблем и атрибутите на набора от данни, който се използва.
Пример за индекс на Джини
Трябва да разгледаме проблем с двоична класификация, при който имаме набор от данни от 10 примера с два класа: „Положителен“ и „Отрицателен“. От 10-те примера 6 имат място в класа „Положителни“, а 4 имат място в клас „Отрицателни“.
За да изчислим индекса Gini на набора от данни, първоначално изчисляваме вероятността за всеки клас:
p_1 = 6/10 = 0,6 (положителен)
p_2 = 4/10 = 0,4 (отрицателно)
След това в този момент използваме формулата за индекса на Джини, за да изчислим нечистотиите на набора от данни:
Gini(S) = 1 - (p_1^2 + p_2^2)
= 1 - (0,6^2 + 0,4^2)
= 0,48
И така, индексът Джини на набора от данни е 0,48.
В момента да предположим, че трябва да разделим набора от данни на елемент „X“, който има две потенциални стойности: „A“ и „B“. Ние разделяме набора от данни на две подгрупи с оглед на компонента:
Подмножество 1 (X = A): 4 положителни, 1 отрицателни
Подгрупа 2 (X = B): 2 положителни, 3 отрицателни
За да изчислим намалението на индекса Джини за това разделяне, първоначално изчисляваме индекса Джини на всяко подмножество:
Джини(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32
Джини(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48
След това използваме формулата за увеличаване на информацията, за да изчислим намалението на индекса Джини:
IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))
= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))
= 0,08
И така, привличането на информация (т.е. намаление на индекса на Джини) за разделяне на набора от данни при осветяване „X“ е 0,08.
За тази ситуация, в случай че изчислим информационното усилване за всички елементи и изберем този с най-забележимо информационно усилване, този компонент ще бъде избран като най-добрият компонент за разделяне в основния възел на дървото на решенията.
Предимства:
Индексът на Джини е широко използвана мярка за оценка на естеството на разделенията в дърветата на решенията и има няколко предимства пред различни мерки, например ентропия или степен на грешна класификация. Ето част от основните предимства на използването на индекса Gini:
15 от 100.00
Изчислително ефективен: Индексът на Джини е по-малко сложна и изчислително по-бърза мярка в сравнение с различни мерки, например ентропия, която включва изчисляване на логаритми.
Интуитивно тълкуване: Индексът на Джини е лесен за интерпретация. Той измерва вероятността случайно избран пример от комплект да бъде неправилно класифициран в случай, че е бил случайно маркиран според предаването на класа в комплекта.
Добър за двоична класификация: Индексът Gini е особено мощен за проблеми с двоична класификация, където целевата променлива има само два класа. В такива случаи е известно, че индексът Джини е по-стабилен от различните мерки.
Устойчив към класов дисбаланс: Индексът на Джини е по-малко деликатен за класов дисбаланс в сравнение с различни мерки, например прецизност или степен на грешна класификация. Това се дължи на факта, че индексът на Джини зависи от общия обхват на примерите във всеки клас, за разлика от окончателните числа.
По-малко склонни към претоварване: Индексът на Джини като цяло ще направи по-скромни дървета на решенията в контраст с различни мерки, което го прави по-малко склонен към пренастройване. Това се дължи на факта, че индексът Gini като цяло ще предпочита функции, които правят по-скромни пакети от данни, което намалява възможностите за прекомерно монтиране.
Недостатъци:
Докато индексът Gini се радва на няколко предимства като мярка за разделяне на дърветата на решенията, той също има няколко недостатъка. Ето част от основните недостатъци на използването на индекса Gini:
Пристрастие към функции с много категории: Индексът Gini като цяло ще клони към функции с много категории или стойности, тъй като те могат да направят повече разделяния и пакети на данните. Това може да доведе до пренастройване и по-сложно дърво на решенията.
Не е добре за непрекъснати променливи: Индексът Gini не е подходящ за непрекъснати променливи, тъй като изисква дискретизиране на променливата в категории или контейнери, което може да доведе до загуба на информация и намалена точност.
Игнорира взаимодействията на функциите: Индексът на Джини просто мисли за индивидуалната пророческа сила на всяка характеристика и игнорира взаимодействията между характеристиките. Това може да доведе до лоши разделения и по-малко точни прогнози.
Не е идеален за някои набори от данни: понякога индексът на Джини може да не е идеалната мярка за оценка на природата на разделянето в дървото на решенията. Например, в случай, че обективната променлива е изключително наклонена или небалансирана, различни мерки, например печалба от информация или пропорция на печалба, може да са по-подходящи.
Склонни към пристрастия при наличие на липсващи стойности: Индексът на Джини може да бъде предубеден при наличие на липсващи стойности, тъй като като цяло ще клони към характеристики с по-малко липсващи стойности, независимо дали те не са най-информативни.
Реални приложения на Gini Index
Индексът Gini е използван в различни приложения в машинното обучение, например местоположение на изнудване, кредитен рейтинг и разделяне на клиенти. Например, при откриване на изнудване, индексът Gini може да се използва за разграничаване на дизайни в обмен на данни и разпознаване на странен начин на поведение. При кредитния рейтинг индексът Gini може да се използва за предвиждане на вероятността от неизпълнение с оглед на променливи като доход, връзка между неизплатен дълг и заплащане вкъщи и запис на изплащане на заема. В отделението за клиенти индексът Джини може да се използва за групиране на клиенти с оглед на начина им на поведение и наклонности.
Бъдещи изследвания
Въпреки неограниченото му използване в алгоритми за дърво на решенията, все още има степен за изследване на индекса Gini. Една област на изследване е напредъкът на нови мерки за примеси, които могат да се справят с ограниченията на индекса Джини, като неговата склонност към фактори с много нива. Друга област на изследване е рационализирането на алгоритмите на дървото на решенията, използващи индекса Gini, например използването на техники за екипировка за работа върху прецизността на дървото на решенията.
Заключение
Индексът на Джини е значителна мярка за примеси, използвана в алгоритмите на дървото на решенията за класификационни задачи. Той измерва вероятността случайно избран тест да бъде неправилно класифициран от алгоритъм на дървото на решенията и стойността му варира от 0 (перфектно чист) до 1 (перфектно нечист). Индексът Gini е ясен и изпълним, изчислително продуктивен и мощен до изключения. Той е бил използван в различни приложения в машинното обучение, например откриване на невярно представяне, кредитен рейтинг и разделяне на клиенти. Въпреки че индексът Gini има няколко ограничения, все още има степен на изследване за неговото подобряване и подобряване на нови мерки за примеси.