Както знаем, алгоритъмът за контролирано машинно обучение може да бъде широко класифициран като регресионни и класификационни алгоритми. В регресионните алгоритми сме предвидили изхода за непрекъснати стойности, но за да предвидим категоричните стойности, се нуждаем от алгоритми за класификация.
Какво представлява алгоритъмът за класификация?
Алгоритъмът за класификация е техника за контролирано обучение, която се използва за идентифициране на категорията на новите наблюдения въз основа на данни за обучение. В класификацията програмата се учи от даден набор от данни или наблюдения и след това класифицира новото наблюдение в определен брой класове или групи. Като, Да или Не, 0 или 1, Спам или Не Спам, котка или куче, и т.н. Класовете могат да се наричат като цели/етикети или категории.
цяло число към низ в java
За разлика от регресията, изходната променлива на класификацията е категория, а не стойност, като „зелено или синьо“, „плод или животно“ и т.н. Тъй като алгоритъмът за класификация е техника за контролирано обучение, следователно той приема етикетирани входни данни, които означава, че съдържа вход със съответния изход.
В класификационния алгоритъм дискретна изходна функция (y) се нанася на входна променлива (x).
y=f(x), where y = categorical output
Най-добрият пример за алгоритъм за класификация на ML е Имейл спам детектор .
Основната цел на алгоритъма за класификация е да идентифицира категорията на даден набор от данни и тези алгоритми се използват главно за прогнозиране на изхода за категориалните данни.
Алгоритмите за класификация могат да бъдат разбрани по-добре с помощта на диаграмата по-долу. В диаграмата по-долу има два класа, клас A и клас B. Тези класове имат характеристики, които са подобни един на друг и се различават от другите класове.
Алгоритъмът, който прилага класификацията на набор от данни, е известен като класификатор. Има два вида класификации:
Примери: ДА или НЕ, МЪЖ или ЖЕНА, СПАМ или НЕ СПАМ, КОТКА или КУЧЕ и др.
Пример: Класификации на видовете култури, Класификация на видовете музика.
Обучаеми в проблеми с класификацията:
В задачите за класификация има два типа обучаеми:
Пример: K-NN алгоритъм, разсъждения, базирани на казус
Видове алгоритми за класификация на ML:
Алгоритмите за класифициране могат да бъдат допълнително разделени в основно две категории:
- Логистична регресия
- Поддържащи векторни машини
- K-най-близки съседи
- Ядро SVM
- Наивен Бейс
- Класификация на дървото на решенията
- Случайна класификация на горите
Забележка: Ще научим горните алгоритми в следващите глави.
Оценяване на модел на класификация:
След като нашият модел е завършен, е необходимо да се оцени неговото представяне; или е класификационен или регресионен модел. Така че за оценка на модел на класификация имаме следните начини:
недостатъците на онлайн банкирането
1. Загуба на дневник или загуба на кръстосана ентропия:
- Използва се за оценка на ефективността на класификатор, чийто изход е вероятностна стойност между 0 и 1.
- За добър модел на двоична класификация стойността на загубата на журнал трябва да бъде близо до 0.
- Стойността на загубата на журнал се увеличава, ако прогнозираната стойност се отклонява от действителната стойност.
- По-ниската загуба на логаритъм представлява по-високата точност на модела.
- За двоична класификация крос-ентропията може да се изчисли като:
?(ylog(p)+(1?y)log(1?p))
Където y = действителен изход, p = прогнозиран изход.
2. Матрица на объркването:
- Матрицата на объркването ни предоставя матрица/таблица като изход и описва производителността на модела.
- Известна е още като матрица на грешките.
- Матрицата се състои от резултат от прогнози в обобщена форма, която има общ брой правилни прогнози и неправилни прогнози. Матрицата изглежда по следния начин:
Действително положително | Действителен отрицателен | |
---|---|---|
Прогнозирано положително | Истинско положително | Фалшиво положителен |
Прогнозирано отрицателно | Фалшив отрицателен | Истински отрицателен |
3. Крива AUC-ROC:
- ROC крива означава Крива на работните характеристики на приемника и AUC означава Площ под кривата .
- Това е графика, която показва ефективността на класификационния модел при различни прагове.
- За да визуализираме ефективността на многокласовия класификационен модел, използваме кривата AUC-ROC.
- ROC кривата се начертава с TPR и FPR, където TPR (истинска положителна честота) на Y-ос и FPR (фалшива положителна честота) на X-оста.
Случаи на използване на класификационни алгоритми
Алгоритмите за класификация могат да се използват на различни места. По-долу са някои популярни случаи на употреба на алгоритми за класификация:
- Откриване на спам по имейл
- Гласово разпознаване
- Идентифициране на ракови туморни клетки.
- Класификация на лекарствата
- Биометрична идентификация и др.