CRISP-DM означава междуиндустриален стандартен процес за извличане на данни. Методологията CRISP-DM предоставя структуриран подход за планиране на проект за извличане на данни. Това е стабилна и добре доказана методология. Ние не претендираме за собственост върху него. Не сме го измислили ние. Ние сме конвертор на неговата мощна практичност, гъвкавост и полезност при използване на анализи за решаване на бизнес проблеми. Това е златната нишка, която минава през почти всяка клиентска среща.
Този модел е идеализирана последователност от събития. На практика много задачи могат да се изпълняват в различен ред и често ще е необходимо да се върнете към предишни задачи и да повторите определени действия. Моделът не се опитва да улови всички възможни маршрути чрез процеса на извличане на данни.
Как помага CRISP?
CRISP DM предоставя пътна карта, дава ви най-добри практики и предоставя структури за по-добри и по-бързи резултати от използването на извличане на данни, така че по този начин помага на бизнеса да следва, докато планира и изпълнява проект за извличане на данни.
Фази на CRISP-DM
CRISP-DM предоставя общ преглед на жизнения цикъл на извличане на данни като модел на процес. Моделът на жизнения цикъл се състои от шест фази, като стрелките показват най-важните и често срещани зависимости между фазите. Последователността на фазите не е строга. И повечето проекти се движат напред и назад между фазите, ако е необходимо. Моделът CRISP-DM е гъвкав и може лесно да се персонализира.
Например, ако вашата организация има за цел да открие пране на пари, вероятно ще пресеете големи количества данни без конкретна цел за моделиране. Вместо моделиране, вашата работа ще се съсредоточи върху изследване на данни и визуализация, за да разкриете подозрителни модели във финансовите данни. CRISP-DM ви позволява да създадете модел за извличане на данни, който отговаря на вашите нужди.
Той включва описания на типичните фази на проекта, задачите, свързани с всяка фаза, и обяснение на връзките между тези задачи.
Фаза 1: Бизнес разбиране
Първият етап от процеса CRISP-DM е разбирането на това, което искате да постигнете от бизнес гледна точка. Вашата организация може да има конкуриращи се цели и ограничения, които трябва да бъдат правилно балансирани. Този етап на процеса има за цел да разкрие важни фактори, влияещи върху резултата от проекта. Пренебрегването на тази стъпка може да означава, че са положени много усилия за получаване на правилните отговори на грешните въпроси.
Какви са желаните резултати от проекта?
Оценете текущата ситуация
предна верига
Това включва по-подробно установяване на факти относно ресурсите, ограниченията, предположенията и други фактори, които ще трябва да имате предвид, когато определяте целта за анализ на данни и плана на проекта.
- Персонал (бизнес експерти, експерти по данни, техническа поддръжка, експерти по извличане на данни)
- Данни (фиксирани извлечения, достъп до живи, складирани или оперативни данни)
- Компютърни ресурси (хардуерни платформи)
- Софтуер (инструменти за извличане на данни, друг подходящ софтуер)
- Речник на съответната бизнес терминология е част от бизнес разбирането, налично за проекта. Съставянето на този речник е полезно „извличане на знания“ и образователно упражнение.
- Речник на терминологията за извличане на данни е илюстриран с примери, свързани с бизнес проблема.
Определете целите за извличане на данни
Бизнес целта посочва целите в бизнес терминологията. Целта за извличане на данни посочва целите на проекта в технически термини. Например, бизнес целта може да бъде увеличаване на каталожните продажби на съществуващи клиенти. Целта на извличането на данни може да бъде да се предвиди колко джаджи ще купи клиент, като се имат предвид техните покупки през последните три години, демографска информация (възраст, заплата, град и т.н.) и цената на артикула.
Изработете план на проекта
Опишете планирания план за постигане на целите за извличане на данни и бизнес целите. Вашият план трябва да уточнява стъпките, които да изпълните по време на останалата част от проекта, включително първоначалния избор на инструменти и техники.
1. План на проекта: Избройте етапите, които трябва да бъдат изпълнени в проекта, с тяхната продължителност, необходими ресурси, входове, изходи и зависимости. Където е възможно, опитайте се да посочите изрично широкомащабните повторения в процеса на извличане на данни, например повторения на фазите на моделиране и оценка.
Като част от плана на проекта е важно да се анализират зависимостите между времевите графици и рисковете. Маркирайте резултатите от тези анализи изрично в плана на проекта, в идеалния случай с действия и препоръки, ако рисковете се проявят. Решете коя стратегия за оценка ще се използва във фазата на оценка.
Вашият проектен план ще бъде динамичен документ. В края на всяка фаза ще преглеждате напредъка и постиженията и съответно ще актуализирате плана на проекта. Конкретни точки за преглед на тези актуализации трябва да бъдат част от плана на проекта.
c произволно число
2. Първоначална оценка на инструментите и техниките: В края на първата фаза трябва да направите първоначална оценка на инструментите и техниките. Например избирате инструмент за извличане на данни, който поддържа различни методи за различни етапи от процеса. Важно е да оцените инструментите и техниките в началото на процеса, тъй като изборът на инструменти и техники може да повлияе на целия проект.
Фаза 2: Разбиране на данните
Втората фаза на процеса CRISP-DM изисква да получите данните, изброени в ресурсите на проекта. Това първоначално събиране включва зареждане на данни, ако това е необходимо за разбиране на данните. Например, ако използвате конкретен инструмент за разбиране на данни, има смисъл да заредите вашите данни в този инструмент. Ако придобиете множество източници на данни, трябва да обмислите как и кога ще ги интегрирате.
Опишете данните
Проучете „брутните“ или „повърхностните“ свойства на получените данни и докладвайте за резултатите.
Изследване на данни
По време на този етап ще разгледате въпроси за извличане на данни, като използвате техники за заявки, визуализация на данни и докладване. Те могат да включват:
сортиран кортеж на python
- Разпределение на ключови атрибути
- Връзки между двойки или малък брой атрибути
- Резултати от прости агрегирания
- Свойства на значими субпопулации
- Прости статистически анализи
Тези анализи могат директно да адресират вашите цели за извличане на данни. Те могат да допринесат или да прецизират описанието на данните и отчетите за качеството и да се включат в трансформацията и други стъпки за подготовка на данни, необходими за по-нататъшен анализ.
Проверете качеството на данните
Проучете качеството на данните, като отговорите на въпроси като:
- Пълни ли са данните или покриват ли всички необходими случаи?
- Правилно ли е, или съдържа грешки и ако има грешки, колко чести са?
- Има ли липсващи стойности в данните? Ако е така, как са представени, къде се срещат и колко чести са?
Доклад за качеството на данните
Избройте резултатите от проверката на качеството на данните. Ако има проблеми с качеството, предложете възможни решения. Решенията на проблемите с качеството на данните обикновено зависят в голяма степен от данните и бизнес познанията.
Фаза 3: Подготовка на данните
В тази фаза на проекта вие решавате какви данни ще използвате за анализ. Критериите, които можете да използвате, за да вземете това решение, включват уместността на данните спрямо вашите цели за извличане на данни, качеството на данните и технически ограничения, като например ограничения за обема на данните или типовете данни.
Почистете данните си
Тази задача включва повишаване на качеството на данните до нивото, изисквано от техниките за анализ, които сте избрали. Това може да включва избиране на чисти подмножества от данни, вмъкване на подходящи стойности по подразбиране или по-амбициозни техники като оценка на липсващи данни чрез моделиране.
Конструирайте необходимите данни
Тази задача включва конструктивни операции за подготовка на данни, като създаване на производни атрибути, цели нови записи или трансформирани стойности за съществуващи атрибути.
Интегриране на данни
Тези методи комбинират информация от множество бази данни, таблици или записи, за да създадат нови записи или стойности.
Фаза 4: Моделиране
Изберете техника за моделиране: Като първа стъпка ще изберете основната техника за моделиране, която ще използвате. Въпреки че може вече да сте избрали инструмент по време на фазата на разбиране на бизнеса, на този етап ще изберете конкретната техника за моделиране, напр. изграждане на дърво на решения с C5.0 или генериране на невронни мрежи с обратно разпространение. Ако се прилагат няколко техники, изпълнете тази задача отделно за всяка техника.
Генерирайте тестов дизайн
преобразуване на низ в цяло число в java
Преди да създадете модел, трябва да генерирате процедура или механизъм за тестване на качеството и валидността на модела. Например, при контролирани задачи за извличане на данни, като например класификация, е обичайно да се използват проценти на грешки като качествени мерки за модели за извличане на данни. Следователно обикновено разделяте набора от данни на набори от влакове и тестове, изграждате модела върху набора от влакове и оценявате качеството му в отделния набор от тестове.
Изграждане на модел
Стартирайте инструмента за моделиране върху подготвения набор от данни, за да създадете един или повече модели.
Оценете модела
Интерпретирайте моделите според вашите познания за домейна, критериите за успех при извличането на данни и желания дизайн на теста. Преценете успеха на прилагането на техники за моделиране и откриване и след това се свържете с бизнес анализатори и експерти по домейни по-късно, за да обсъдите резултатите от извличането на данни в бизнес контекста. Тази задача разглежда само модели, докато фазата на оценка също взема предвид всички други резултати, получени по време на проекта.
На този етап трябва да класирате моделите и да ги оцените според критериите за оценка. Тук трябва да вземете предвид бизнес целите и критериите за успех, доколкото можете. В повечето проекти за извличане на данни една техника се прилага повече от веднъж и резултатите от извличането на данни се генерират с няколко различни техники.
Фаза 5: Оценка
Оценете вашите резултати: Предишните стъпки за оценка се занимаваха с фактори като точността и общостта на модела. По време на тази стъпка ще оцените степента, в която моделът отговаря на вашите бизнес цели и ще се опитате да определите дали има някаква бизнес причина, поради която този модел е недостатъчен. Друг вариант е да тествате модела върху тестови приложения в реалното приложение, ако времето и бюджетните ограничения позволяват. Фазата на оценка също така включва оценка на всички други резултати от извличане на данни, които сте генерирали. Резултатите от извличане на данни включват модели, които непременно са свързани с първоначалните бизнес цели и всички други открития, които не са непременно свързани с първоначалните бизнес цели, но могат също така да разкрият допълнителни предизвикателства, информация или съвети за бъдещи насоки.
Процес на преглед
На този етап получените модели изглеждат задоволителни и задоволяват нуждите на бизнеса. Сега е подходящо да направите по-задълбочен преглед на ангажимента за извличане на данни, за да определите дали има важен фактор или задача, която по някакъв начин е била пренебрегната. Този преглед обхваща и въпроси, свързани с осигуряване на качеството. Например: правилно ли изградихме модела? Използвахме ли само атрибутите, които ни е разрешено да използваме и които са достъпни за бъдещи анализи?
Определете следващите стъпки
Сега вие решавате как да продължите в зависимост от резултатите от оценката и прегледа на процеса. Завършвате ли този проект и преминавате ли към внедряване, инициирате ли по-нататъшни повторения или създавате нови проекти за извличане на данни? Трябва също така да прегледате оставащите си ресурси и бюджет, които могат да повлияят на вашите решения.
Фаза 6: Внедряване
Планирайте внедряване: В етапа на внедряване ще вземете резултатите от оценката си и ще определите стратегия за тяхното внедряване. Ако е идентифицирана обща процедура за създаване на съответния модел(и), тази процедура е документирана тук за по-късно внедряване. Има смисъл да се обмислят начините и средствата за внедряване по време на фазата на разбиране на бизнеса, тъй като внедряването е от решаващо значение за успеха на проекта. Това е мястото, където прогнозният анализ помага за подобряване на оперативната страна на вашия бизнес.
Планирайте мониторинг и поддръжка
Мониторингът и поддръжката са важни въпроси, ако резултатът от извличането на данни стане част от ежедневния бизнес и неговата среда. Внимателното изготвяне на стратегия за поддръжка помага да се избегнат ненужно дълги периоди на неправилно използване на резултатите от извличане на данни. Проектът се нуждае от подробен план за процеса на наблюдение, за да наблюдава внедряването на резултатите от извличането на данни. Този план взема предвид конкретния тип разполагане.
Изгответе окончателен доклад
В края на проекта ще напишете окончателен доклад. В зависимост от плана за внедряване, този отчет може да бъде само обобщение на проекта и неговия опит (ако те вече не са били документирани като текуща дейност) или може да бъде окончателно и изчерпателно представяне на резултата от извличането на данни.
Преглед на проекта
съкращаване и изтриване на разликата
Оценете какво е било правилно и какво не е наред, какво е направено добре и какво има нужда от подобрение.