logo

Алгоритъм за класификация в машинното обучение

Както знаем, алгоритъмът за контролирано машинно обучение може да бъде широко класифициран като регресионни и класификационни алгоритми. В регресионните алгоритми сме предвидили изхода за непрекъснати стойности, но за да предвидим категоричните стойности, се нуждаем от алгоритми за класификация.

Какво представлява алгоритъмът за класификация?

Алгоритъмът за класификация е техника за контролирано обучение, която се използва за идентифициране на категорията на новите наблюдения въз основа на данни за обучение. В класификацията програмата се учи от даден набор от данни или наблюдения и след това класифицира новото наблюдение в определен брой класове или групи. Като, Да или Не, 0 или 1, Спам или Не Спам, котка или куче, и т.н. Класовете могат да се наричат ​​като цели/етикети или категории.

цяло число към низ в java

За разлика от регресията, изходната променлива на класификацията е категория, а не стойност, като „зелено или синьо“, „плод или животно“ и т.н. Тъй като алгоритъмът за класификация е техника за контролирано обучение, следователно той приема етикетирани входни данни, които означава, че съдържа вход със съответния изход.

В класификационния алгоритъм дискретна изходна функция (y) се нанася на входна променлива (x).

 y=f(x), where y = categorical output 

Най-добрият пример за алгоритъм за класификация на ML е Имейл спам детектор .

Основната цел на алгоритъма за класификация е да идентифицира категорията на даден набор от данни и тези алгоритми се използват главно за прогнозиране на изхода за категориалните данни.

Алгоритмите за класификация могат да бъдат разбрани по-добре с помощта на диаграмата по-долу. В диаграмата по-долу има два класа, клас A и клас B. Тези класове имат характеристики, които са подобни един на друг и се различават от другите класове.

Алгоритъм за класификация в машинното обучение

Алгоритъмът, който прилага класификацията на набор от данни, е известен като класификатор. Има два вида класификации:

    Двоичен класификатор:Ако проблемът с класификацията има само два възможни резултата, тогава той се нарича двоичен класификатор.
    Примери: ДА или НЕ, МЪЖ или ЖЕНА, СПАМ или НЕ СПАМ, КОТКА или КУЧЕ и др.Многокласов класификатор:Ако проблемът с класификацията има повече от два резултата, тогава той се нарича многокласов класификатор.
    Пример: Класификации на видовете култури, Класификация на видовете музика.

Обучаеми в проблеми с класификацията:

В задачите за класификация има два типа обучаеми:

    Мързеливи учащи:Lazy Learner първо съхранява набора от данни за обучение и изчаква, докато получи тестовия набор от данни. В случай на мързелив обучаем, класификацията се извършва въз основа на най-свързаните данни, съхранени в набора от данни за обучение. Отнема по-малко време за обучение, но повече време за прогнози.
    Пример: K-NN алгоритъм, разсъждения, базирани на казусНетърпеливи учащи:Eager Learners разработват класификационен модел въз основа на набор от данни за обучение, преди да получат тестов набор от данни. За разлика от мързеливите учащи, Eager Learner отнема повече време за учене и по-малко време за прогнозиране. Пример: Дървета на решенията, Na�ve Bayes, ANN.

Видове алгоритми за класификация на ML:

Алгоритмите за класифициране могат да бъдат допълнително разделени в основно две категории:

    Линейни модели
    • Логистична регресия
    • Поддържащи векторни машини
    Нелинейни модели
    • K-най-близки съседи
    • Ядро SVM
    • Наивен Бейс
    • Класификация на дървото на решенията
    • Случайна класификация на горите

Забележка: Ще научим горните алгоритми в следващите глави.

Оценяване на модел на класификация:

След като нашият модел е завършен, е необходимо да се оцени неговото представяне; или е класификационен или регресионен модел. Така че за оценка на модел на класификация имаме следните начини:

недостатъците на онлайн банкирането

1. Загуба на дневник или загуба на кръстосана ентропия:

  • Използва се за оценка на ефективността на класификатор, чийто изход е вероятностна стойност между 0 и 1.
  • За добър модел на двоична класификация стойността на загубата на журнал трябва да бъде близо до 0.
  • Стойността на загубата на журнал се увеличава, ако прогнозираната стойност се отклонява от действителната стойност.
  • По-ниската загуба на логаритъм представлява по-високата точност на модела.
  • За двоична класификация крос-ентропията може да се изчисли като:
 ?(ylog(p)+(1?y)log(1?p)) 

Където y = действителен изход, p = прогнозиран изход.

2. Матрица на объркването:

  • Матрицата на объркването ни предоставя матрица/таблица като изход и описва производителността на модела.
  • Известна е още като матрица на грешките.
  • Матрицата се състои от резултат от прогнози в обобщена форма, която има общ брой правилни прогнози и неправилни прогнози. Матрицата изглежда по следния начин:
Действително положително Действителен отрицателен
Прогнозирано положително Истинско положително Фалшиво положителен
Прогнозирано отрицателно Фалшив отрицателен Истински отрицателен
Алгоритъм за класификация в машинното обучение

3. Крива AUC-ROC:

  • ROC крива означава Крива на работните характеристики на приемника и AUC означава Площ под кривата .
  • Това е графика, която показва ефективността на класификационния модел при различни прагове.
  • За да визуализираме ефективността на многокласовия класификационен модел, използваме кривата AUC-ROC.
  • ROC кривата се начертава с TPR и FPR, където TPR (истинска положителна честота) на Y-ос и FPR (фалшива положителна честота) на X-оста.

Случаи на използване на класификационни алгоритми

Алгоритмите за класификация могат да се използват на различни места. По-долу са някои популярни случаи на употреба на алгоритми за класификация:

  • Откриване на спам по имейл
  • Гласово разпознаване
  • Идентифициране на ракови туморни клетки.
  • Класификация на лекарствата
  • Биометрична идентификация и др.