logo

Какво е CRISP в Data Mining?

CRISP-DM означава междуиндустриален стандартен процес за извличане на данни. Методологията CRISP-DM предоставя структуриран подход за планиране на проект за извличане на данни. Това е стабилна и добре доказана методология. Ние не претендираме за собственост върху него. Не сме го измислили ние. Ние сме конвертор на неговата мощна практичност, гъвкавост и полезност при използване на анализи за решаване на бизнес проблеми. Това е златната нишка, която минава през почти всяка клиентска среща.

Този модел е идеализирана последователност от събития. На практика много задачи могат да се изпълняват в различен ред и често ще е необходимо да се върнете към предишни задачи и да повторите определени действия. Моделът не се опитва да улови всички възможни маршрути чрез процеса на извличане на данни.

Как помага CRISP?

CRISP DM предоставя пътна карта, дава ви най-добри практики и предоставя структури за по-добри и по-бързи резултати от използването на извличане на данни, така че по този начин помага на бизнеса да следва, докато планира и изпълнява проект за извличане на данни.

Фази на CRISP-DM

CRISP-DM предоставя общ преглед на жизнения цикъл на извличане на данни като модел на процес. Моделът на жизнения цикъл се състои от шест фази, като стрелките показват най-важните и често срещани зависимости между фазите. Последователността на фазите не е строга. И повечето проекти се движат напред и назад между фазите, ако е необходимо. Моделът CRISP-DM е гъвкав и може лесно да се персонализира.

Например, ако вашата организация има за цел да открие пране на пари, вероятно ще пресеете големи количества данни без конкретна цел за моделиране. Вместо моделиране, вашата работа ще се съсредоточи върху изследване на данни и визуализация, за да разкриете подозрителни модели във финансовите данни. CRISP-DM ви позволява да създадете модел за извличане на данни, който отговаря на вашите нужди.

Той включва описания на типичните фази на проекта, задачите, свързани с всяка фаза, и обяснение на връзките между тези задачи.

Какво е CRISP в Data Mining

Фаза 1: Бизнес разбиране

Първият етап от процеса CRISP-DM е разбирането на това, което искате да постигнете от бизнес гледна точка. Вашата организация може да има конкуриращи се цели и ограничения, които трябва да бъдат правилно балансирани. Този етап на процеса има за цел да разкрие важни фактори, влияещи върху резултата от проекта. Пренебрегването на тази стъпка може да означава, че са положени много усилия за получаване на правилните отговори на грешните въпроси.

Какви са желаните резултати от проекта?

    Поставете цели:Опишете основната си цел от бизнес гледна точка. Може да има и други свързани въпроси, които бихте искали да споменете. Например основната ви цел може да бъде да задържите настоящите клиенти, като предвидите кога са склонни да се преместят при конкурент.Създайте план на проекта:Опишете плана за постигане на извличането на данни и бизнес целите. Планът трябва да уточнява стъпките, които трябва да се извършат през останалата част от проекта, включително първоначалния избор на инструменти и техники.Критерии за успех на бизнеса:Тук ще изложите критериите, които ще използвате, за да определите дали проектът е бил успешен от бизнес гледна точка. В идеалния случай те трябва да бъдат специфични и измерими, например да намалят клиентския ритъм до определено ниво. Въпреки това, понякога може да е необходимо да имате по-субективни критерии, като например предоставяне на полезна представа за взаимоотношенията.

Оценете текущата ситуация

предна верига

Това включва по-подробно установяване на факти относно ресурсите, ограниченията, предположенията и други фактори, които ще трябва да имате предвид, когато определяте целта за анализ на данни и плана на проекта.

    Опис на ресурсите:Избройте наличните ресурси за проекта, включително:
    • Персонал (бизнес експерти, експерти по данни, техническа поддръжка, експерти по извличане на данни)
    • Данни (фиксирани извлечения, достъп до живи, складирани или оперативни данни)
    • Компютърни ресурси (хардуерни платформи)
    • Софтуер (инструменти за извличане на данни, друг подходящ софтуер)
    Изисквания, предположения и ограничения:Избройте всички изисквания на проекта, включително графика на завършване, необходимата разбираемост и качество на резултатите, както и всички проблеми със сигурността на данните и правни въпроси. Уверете се, че имате право да използвате данните. Избройте допусканията, направени от проекта. Това може да са предположения относно данните, които могат да бъдат проверени по време на извличане на данни, но могат също така да включват непроверими предположения относно бизнеса, свързан с проекта. Важно е да се изброят последните, ако влияят на валидността на резултатите. Избройте ограниченията на проекта. Това може да са ограничения върху наличността на ресурси, но могат също така да включват технологични ограничения като размера на набора от данни, който е практично да се използва за моделиране.Рискове и непредвидени обстоятелства:Избройте рисковете или събитията, които могат да забавят проекта или да доведат до провал. Избройте съответните планове за действие при извънредни ситуации, като например какви действия ще предприемете, ако възникнат тези рискове или събития?Терминология:Съставете речник на терминологията, свързана с проекта. Това обикновено има два компонента:
    • Речник на съответната бизнес терминология е част от бизнес разбирането, налично за проекта. Съставянето на този речник е полезно „извличане на знания“ и образователно упражнение.
    • Речник на терминологията за извличане на данни е илюстриран с примери, свързани с бизнес проблема.
    Разходи и ползи:Изградете анализ на разходите и ползите за проекта, който сравнява разходите на проекта с потенциалните ползи за бизнеса, ако той е успешен. Това сравнение трябва да бъде възможно най-конкретно. Например, трябва да използвате финансови мерки в търговска ситуация.

Определете целите за извличане на данни

Бизнес целта посочва целите в бизнес терминологията. Целта за извличане на данни посочва целите на проекта в технически термини. Например, бизнес целта може да бъде увеличаване на каталожните продажби на съществуващи клиенти. Целта на извличането на данни може да бъде да се предвиди колко джаджи ще купи клиент, като се имат предвид техните покупки през последните три години, демографска информация (възраст, заплата, град и т.н.) и цената на артикула.

    Критерии за успех на бизнеса:Той описва предвидените резултати от проекта, които позволяват постигането на бизнес целите.Критерии за успех при извличането на данни:Той определя критериите за успешен резултат от проекта. Например, определено ниво на точност на прогнозиране или профил на склонност към покупка с дадена степен на „подем“. Както при критериите за бизнес успех, може да е необходимо те да бъдат описани със субективни термини, като в този случай лицето или лицата, които правят субективната преценка, трябва да бъдат идентифицирани.

Изработете план на проекта

Опишете планирания план за постигане на целите за извличане на данни и бизнес целите. Вашият план трябва да уточнява стъпките, които да изпълните по време на останалата част от проекта, включително първоначалния избор на инструменти и техники.

1. План на проекта: Избройте етапите, които трябва да бъдат изпълнени в проекта, с тяхната продължителност, необходими ресурси, входове, изходи и зависимости. Където е възможно, опитайте се да посочите изрично широкомащабните повторения в процеса на извличане на данни, например повторения на фазите на моделиране и оценка.

Като част от плана на проекта е важно да се анализират зависимостите между времевите графици и рисковете. Маркирайте резултатите от тези анализи изрично в плана на проекта, в идеалния случай с действия и препоръки, ако рисковете се проявят. Решете коя стратегия за оценка ще се използва във фазата на оценка.

Вашият проектен план ще бъде динамичен документ. В края на всяка фаза ще преглеждате напредъка и постиженията и съответно ще актуализирате плана на проекта. Конкретни точки за преглед на тези актуализации трябва да бъдат част от плана на проекта.

c произволно число

2. Първоначална оценка на инструментите и техниките: В края на първата фаза трябва да направите първоначална оценка на инструментите и техниките. Например избирате инструмент за извличане на данни, който поддържа различни методи за различни етапи от процеса. Важно е да оцените инструментите и техниките в началото на процеса, тъй като изборът на инструменти и техники може да повлияе на целия проект.

Фаза 2: Разбиране на данните

Втората фаза на процеса CRISP-DM изисква да получите данните, изброени в ресурсите на проекта. Това първоначално събиране включва зареждане на данни, ако това е необходимо за разбиране на данните. Например, ако използвате конкретен инструмент за разбиране на данни, има смисъл да заредите вашите данни в този инструмент. Ако придобиете множество източници на данни, трябва да обмислите как и кога ще ги интегрирате.

    Първоначален доклад за събиране на данни:Избройте получените източници на данни, техните местоположения, методите, използвани за получаването им, и всички възникнали проблеми. Запишете проблемите, които сте срещнали, и всички постигнати решения. Това ще помогне за бъдещото възпроизвеждане на този проект и изпълнението на подобни бъдещи проекти.

Опишете данните

Проучете „брутните“ или „повърхностните“ свойства на получените данни и докладвайте за резултатите.

    Доклад за описание на данните:Опишете данните, които са били получени, включително техния формат, тяхното количество, идентичността на полетата и всички други повърхностни характеристики, които са били открити. Преценете дали получените данни отговарят на вашите изисквания.

Изследване на данни

По време на този етап ще разгледате въпроси за извличане на данни, като използвате техники за заявки, визуализация на данни и докладване. Те могат да включват:

сортиран кортеж на python
  • Разпределение на ключови атрибути
  • Връзки между двойки или малък брой атрибути
  • Резултати от прости агрегирания
  • Свойства на значими субпопулации
  • Прости статистически анализи

Тези анализи могат директно да адресират вашите цели за извличане на данни. Те могат да допринесат или да прецизират описанието на данните и отчетите за качеството и да се включат в трансформацията и други стъпки за подготовка на данни, необходими за по-нататъшен анализ.

    Доклад за проучване на данни:Опишете резултатите от вашето проучване на данни, включително първите констатации или първоначалната хипотеза и тяхното въздействие върху останалата част от проекта. Ако е уместно, можете да включите графики и диаграми тук, за да посочите характеристики на данните, които предполагат по-нататъшно изследване на интересни подгрупи от данни.

Проверете качеството на данните

Проучете качеството на данните, като отговорите на въпроси като:

  • Пълни ли са данните или покриват ли всички необходими случаи?
  • Правилно ли е, или съдържа грешки и ако има грешки, колко чести са?
  • Има ли липсващи стойности в данните? Ако е така, как са представени, къде се срещат и колко чести са?

Доклад за качеството на данните

Избройте резултатите от проверката на качеството на данните. Ако има проблеми с качеството, предложете възможни решения. Решенията на проблемите с качеството на данните обикновено зависят в голяма степен от данните и бизнес познанията.

Фаза 3: Подготовка на данните

В тази фаза на проекта вие решавате какви данни ще използвате за анализ. Критериите, които можете да използвате, за да вземете това решение, включват уместността на данните спрямо вашите цели за извличане на данни, качеството на данните и технически ограничения, като например ограничения за обема на данните или типовете данни.

    Обосновка за включване/изключване:Избройте данните, които трябва да бъдат включени/изключени, и причините за тези решения.

Почистете данните си

Тази задача включва повишаване на качеството на данните до нивото, изисквано от техниките за анализ, които сте избрали. Това може да включва избиране на чисти подмножества от данни, вмъкване на подходящи стойности по подразбиране или по-амбициозни техники като оценка на липсващи данни чрез моделиране.

    Доклад за почистване на данни:Опишете какви решения и действия сте предприели, за да разрешите проблеми с качеството на данните. Обмислете всички трансформации на данни, направени за целите на почистването и възможното им въздействие върху резултатите от анализа.

Конструирайте необходимите данни

Тази задача включва конструктивни операции за подготовка на данни, като създаване на производни атрибути, цели нови записи или трансформирани стойности за съществуващи атрибути.

    Изведени атрибути:Това са нови атрибути, конструирани от един или повече съществуващи атрибути в същия запис. Например, можете да използвате променливите дължина и ширина, за да изчислите нова променлива площ.Генерирани записи:Тук описвате създаването на напълно нови записи. Например, може да се наложи да създадете записи за клиенти, които не са пазарували през последната година. Нямаше причина да има такива записи в необработените данни. Все пак може да има смисъл да се представи, че конкретни клиенти изрично са направили нулеви покупки за целите на моделирането.

Интегриране на данни

Тези методи комбинират информация от множество бази данни, таблици или записи, за да създадат нови записи или стойности.

    Обединени данни:Обединяването на таблици се отнася до свързване на две или повече таблици с различна информация за едни и същи обекти. Например търговска верига може да има една таблица с информация за общите характеристики на всеки магазин (напр. площ, тип търговски център), друга таблица с обобщени данни за продажби (напр. печалба, процентна промяна в продажбите от предходната година) и друг с информация за демографията на околността. Всяка от тези таблици съдържа по един запис за всеки магазин. Тези таблици могат да бъдат обединени в нова таблица с по един запис за всеки магазин, комбинирайки полета от изходните таблици.Агрегации:Агрегациите са операции, при които нови стойности се изчисляват чрез обобщаване на информация от множество записи или таблици. Например преобразуване на таблица с покупки на клиенти, където един запис за всяка покупка в нова таблица и един запис за всеки клиент, с полета като брой покупки, средна сума на покупката, процент на поръчките, таксувани на кредитна карта, процент на артикулите под повишение и др.

Фаза 4: Моделиране

Изберете техника за моделиране: Като първа стъпка ще изберете основната техника за моделиране, която ще използвате. Въпреки че може вече да сте избрали инструмент по време на фазата на разбиране на бизнеса, на този етап ще изберете конкретната техника за моделиране, напр. изграждане на дърво на решения с C5.0 или генериране на невронни мрежи с обратно разпространение. Ако се прилагат няколко техники, изпълнете тази задача отделно за всяка техника.

    Техника на моделиране:Документирайте основната техника за моделиране, която ще се използва.Предположения за моделиране:Много техники за моделиране правят специфични предположения за данните, например, че всички атрибути имат еднакви разпределения, не се допускат липсващи стойности, атрибутът на класа трябва да е символичен и т.н. Запишете всички направени предположения.

Генерирайте тестов дизайн

преобразуване на низ в цяло число в java

Преди да създадете модел, трябва да генерирате процедура или механизъм за тестване на качеството и валидността на модела. Например, при контролирани задачи за извличане на данни, като например класификация, е обичайно да се използват проценти на грешки като качествени мерки за модели за извличане на данни. Следователно обикновено разделяте набора от данни на набори от влакове и тестове, изграждате модела върху набора от влакове и оценявате качеството му в отделния набор от тестове.

    Дизайн на теста:Опишете планирания план за обучение, тестване и оценка на моделите. Основен компонент на плана е определянето как да се раздели наличният набор от данни на набори от данни за обучение, тест и валидиране.

Изграждане на модел

Стартирайте инструмента за моделиране върху подготвения набор от данни, за да създадете един или повече модели.

    Настройки на параметрите:С всеки инструмент за моделиране често има голям брой параметри, които могат да бъдат коригирани. Избройте параметрите, техните стойности и обосновката за избор на настройки на параметри.Модели:Това са моделите, произведени от инструмента за моделиране, а не отчет за моделите.Описания на моделите:Опишете получените модели, докладвайте за тълкуването на моделите и документирайте всички трудности, възникнали при техните значения.

Оценете модела

Интерпретирайте моделите според вашите познания за домейна, критериите за успех при извличането на данни и желания дизайн на теста. Преценете успеха на прилагането на техники за моделиране и откриване и след това се свържете с бизнес анализатори и експерти по домейни по-късно, за да обсъдите резултатите от извличането на данни в бизнес контекста. Тази задача разглежда само модели, докато фазата на оценка също взема предвид всички други резултати, получени по време на проекта.

На този етап трябва да класирате моделите и да ги оцените според критериите за оценка. Тук трябва да вземете предвид бизнес целите и критериите за успех, доколкото можете. В повечето проекти за извличане на данни една техника се прилага повече от веднъж и резултатите от извличането на данни се генерират с няколко различни техники.

    Оценка на модела:Обобщава резултатите от тази задача, изброява качествата на вашите генерирани модели (напр. по отношение на точността) и класира качеството им едно спрямо друго.Ревизирани настройки на параметрите:Според оценката на модела, преразгледайте ги и ги настройте за следващото моделиране. Повтаряйте изграждането и оценката на модела, докато не повярвате силно, че сте намерили най-добрия модел(и). Документирайте всички подобни ревизии и оценки.

Фаза 5: Оценка

Оценете вашите резултати: Предишните стъпки за оценка се занимаваха с фактори като точността и общостта на модела. По време на тази стъпка ще оцените степента, в която моделът отговаря на вашите бизнес цели и ще се опитате да определите дали има някаква бизнес причина, поради която този модел е недостатъчен. Друг вариант е да тествате модела върху тестови приложения в реалното приложение, ако времето и бюджетните ограничения позволяват. Фазата на оценка също така включва оценка на всички други резултати от извличане на данни, които сте генерирали. Резултатите от извличане на данни включват модели, които непременно са свързани с първоначалните бизнес цели и всички други открития, които не са непременно свързани с първоначалните бизнес цели, но могат също така да разкрият допълнителни предизвикателства, информация или съвети за бъдещи насоки.

    Оценка на резултатите от извличането на данни:Обобщете резултатите от оценката в критериите за успех на бизнеса, включително окончателно изявление относно това дали проектът вече отговаря на първоначалните бизнес цели.Одобрени модели:След оценка на моделите по критериите за бизнес успех, генерираните модели, които отговарят на избраните критерии, стават одобрени модели.

Процес на преглед

На този етап получените модели изглеждат задоволителни и задоволяват нуждите на бизнеса. Сега е подходящо да направите по-задълбочен преглед на ангажимента за извличане на данни, за да определите дали има важен фактор или задача, която по някакъв начин е била пренебрегната. Този преглед обхваща и въпроси, свързани с осигуряване на качеството. Например: правилно ли изградихме модела? Използвахме ли само атрибутите, които ни е разрешено да използваме и които са достъпни за бъдещи анализи?

    Преглед на процеса:Обобщете прегледа на процеса и подчертайте дейностите, които са пропуснати и тези, които трябва да се повторят.

Определете следващите стъпки

Сега вие решавате как да продължите в зависимост от резултатите от оценката и прегледа на процеса. Завършвате ли този проект и преминавате ли към внедряване, инициирате ли по-нататъшни повторения или създавате нови проекти за извличане на данни? Трябва също така да прегледате оставащите си ресурси и бюджет, които могат да повлияят на вашите решения.

    Списък с възможни действия:Избройте потенциалните по-нататъшни действия и причините за и против всяка опция.решение:Опишете решението как да продължите, заедно с обосновката.

Фаза 6: Внедряване

Планирайте внедряване: В етапа на внедряване ще вземете резултатите от оценката си и ще определите стратегия за тяхното внедряване. Ако е идентифицирана обща процедура за създаване на съответния модел(и), тази процедура е документирана тук за по-късно внедряване. Има смисъл да се обмислят начините и средствата за внедряване по време на фазата на разбиране на бизнеса, тъй като внедряването е от решаващо значение за успеха на проекта. Това е мястото, където прогнозният анализ помага за подобряване на оперативната страна на вашия бизнес.

    План за внедряване:Обобщете стратегията си за внедряване, включително необходимите стъпки и как да ги изпълните.

Планирайте мониторинг и поддръжка

Мониторингът и поддръжката са важни въпроси, ако резултатът от извличането на данни стане част от ежедневния бизнес и неговата среда. Внимателното изготвяне на стратегия за поддръжка помага да се избегнат ненужно дълги периоди на неправилно използване на резултатите от извличане на данни. Проектът се нуждае от подробен план за процеса на наблюдение, за да наблюдава внедряването на резултатите от извличането на данни. Този план взема предвид конкретния тип разполагане.

    План за наблюдение и поддръжка:Обобщете стратегията за наблюдение и поддръжка, включително необходимите стъпки и как да ги изпълните.

Изгответе окончателен доклад

В края на проекта ще напишете окончателен доклад. В зависимост от плана за внедряване, този отчет може да бъде само обобщение на проекта и неговия опит (ако те вече не са били документирани като текуща дейност) или може да бъде окончателно и изчерпателно представяне на резултата от извличането на данни.

    Окончателен доклад:Това е окончателният писмен доклад за ангажимента за извличане на данни. Той включва всички предишни резултати, като обобщава и организира резултатите.Финална презентация:Често ще има среща след проекта, на която резултатите се представят на клиента.

Преглед на проекта

съкращаване и изтриване на разликата

Оценете какво е било правилно и какво не е наред, какво е направено добре и какво има нужда от подобрение.

    Документация за опита:Обобщете важен опит, натрупан по време на проекта. Например, тази документация може да включва всички клопки, които сте срещнали, подвеждащи подходи или съвети за избор на най-подходящите техники за извличане на данни в подобни ситуации. В идеалните проекти документацията за опит също обхваща всички доклади, които отделните членове на проекта са написали по време на предишни фази на проекта.