Data Mining "добыча пи"
создатель Диана Розанова

1. Закономерности
1.1. Неочевидные
1.2. Объективные
1.3. Практически полезных
2. это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования.
3. Типы закономерностей
3.1. ассоциация
3.2. последовательность
3.3. классификация
3.4. кластеризация
3.5. временные закономерности
4. Цель и суть
4.1. представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса
4.2. это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.
5. Методы исследования данных
5.1. регрессионный, дисперсионный и корреляционный анализ
5.2. методы анализа в конкретной предметной области, базирующиеся на эмпирических моделях
5.3. нейросетевые алгоритмы, идея которых основана на аналогии с функционированием нервной ткани и заключается в том, что исходные параметры рассматриваются как сигналы, преобразующиеся в соответствии с имеющимися связями между «нейронами», а в качестве ответа, являющегося результатом анализа, рассматривается отклик всей сети на исходные данные
5.4. алгоритмы − выбор близкого аналога исходных данных из уже имеющихся исторических данных. Называются также методом «ближайшего соседа»
5.5. деревья решений − иерархическая структура, базирующаяся на наборе вопросов, подразумевающих ответ «Да» или «Нет»
5.6. кластерные модели (иногда также называемые моделями сегментации) применяются для объединения сходных событий в группы на основании сходных значений нескольких полей в наборе данных
5.7. алгоритмы ограниченного перебора, вычисляющие частоты комбинаций простых логических событий в подгруппах данных
5.8. эволюционное программирование − поиск и генерация алгоритма, выражающего взаимозависимость данных, на основании изначально заданного алгоритма, модифицируемого в процессе поиска
6. это процесс, цель которого − обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (определение Gartner Group).
7. это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (определение SAS Institute).
8. это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
8.1. Особенности
8.1.1. нестандартность
8.1.2. неочевидность разыскиваемых шаблонов