PMML: различия между версиями

Материал из in.wiki
Перейти к навигации Перейти к поиску
w>InternetArchiveBot
(Спасено источников — 3, отмечено мёртвыми — 0. #IABot (v1.6.1))
w>InternetArchiveBot
(Спасено источников — 6, отмечено мёртвыми — 0. Сообщить об ошибке. См. FAQ. #IABot (v2.0beta15))
Строка 95: Строка 95:
 
Спектр программных продуктов, предлагаемых для создания и использования PMML:
 
Спектр программных продуктов, предлагаемых для создания и использования PMML:
  
* '''[http://angoss.com/analytics_software/KnowledgeSTUDIO.php Angoss KnowledgeSTUDIO]''': создаёт PMML 3.2 для регрессионных моделей (логистических и линейных), деревьев решений, [[Кластерный анализ|кластерного анализа]], [[Искусственная нейронная сеть|нейронных сетей]] и моделей на основе набора правил (используется для представления показателей).
+
* '''[https://web.archive.org/web/20110712185838/http://www.angoss.com/analytics_software/KnowledgeSTUDIO.php Angoss KnowledgeSTUDIO]''': создаёт PMML 3.2 для регрессионных моделей (логистических и линейных), деревьев решений, [[Кластерный анализ|кластерного анализа]], [[Искусственная нейронная сеть|нейронных сетей]] и моделей на основе набора правил (используется для представления показателей).
* '''[http://angoss.com/analytics_software/KnowledgeSEEKER.php Angoss KnowledgeSEEKER]''': создаёт PMML 3.2 для деревьев решений.
+
* '''[https://web.archive.org/web/20110712185247/http://www.angoss.com/analytics_software/KnowledgeSEEKER.php Angoss KnowledgeSEEKER]''': создаёт PMML 3.2 для деревьев решений.
* '''[http://angoss.com/analytics_software/StrategyBUILDER.php Angoss StrategyBuilder (модуль расширения для KnowledgeSEEKER и KnowledgeSTUDIO)]''': создает PMML 3.2 для деревьев решений (используется для представления деревьев стратегии).
+
* '''[https://web.archive.org/web/20110420031556/http://www.angoss.com/analytics_software/StrategyBUILDER.php Angoss StrategyBuilder (модуль расширения для KnowledgeSEEKER и KnowledgeSTUDIO)]''': создает PMML 3.2 для деревьев решений (используется для представления деревьев стратегии).
 
* '''[http://www-306.ibm.com/software/data/db2/warehouse/ IBM InfoSphere Warehouse]''': создаёт PMML 3.0 и 3.1 только для последовательностей моделей. Принимает (оценивает и визуализирует) PMML 3.1 и младше.
 
* '''[http://www-306.ibm.com/software/data/db2/warehouse/ IBM InfoSphere Warehouse]''': создаёт PMML 3.0 и 3.1 только для последовательностей моделей. Принимает (оценивает и визуализирует) PMML 3.1 и младше.
 
* '''[http://www.spss.com/software/modeler/ IBM SPSS Modeler]''': создаёт и оценивает PMML 3.2 и 4.0 для различных моделей.
 
* '''[http://www.spss.com/software/modeler/ IBM SPSS Modeler]''': создаёт и оценивает PMML 3.2 и 4.0 для различных моделей.
Строка 104: Строка 104:
 
* '''[http://www.kxen.com/ KXEN]''': создаёт PMML 3.2 для регрессионных моделей (том числе моделей интеллектуального анализа данных) и [[Кластерный анализ|кластерного анализа]].
 
* '''[http://www.kxen.com/ KXEN]''': создаёт PMML 3.2 для регрессионных моделей (том числе моделей интеллектуального анализа данных) и [[Кластерный анализ|кластерного анализа]].
 
* '''[http://www.microsoft.com/sqlserver/2008/en/us/analysis-services.aspx Microsoft SQL Server 2008 Analysis Services]''': создаёт и принимает PMML 2.1 для деревьев решений и [[Кластерный анализ|кластерного анализа]].
 
* '''[http://www.microsoft.com/sqlserver/2008/en/us/analysis-services.aspx Microsoft SQL Server 2008 Analysis Services]''': создаёт и принимает PMML 2.1 для деревьев решений и [[Кластерный анализ|кластерного анализа]].
* '''[http://www.microstrategy.com/Software/Products/Service_Modules/DataMining_Services/index.asp MicroStrategy]''': поддерживает PMML 2.0, 2.1, 3.0, 3.1, 3.2 и 4.0 для [[linear regression|линейной регрессии]], [[Логистическая регрессия|логистической регрессии]], деревьев решений, [[Кластерный анализ|кластерного анализа]], [[Association rule|ассоциативных правил]], [[Временной ряд|временных рядов]], [[Искусственная нейронная сеть|нейронных сетей]] и [[Метод опорных векторов|метода опорных векторов]].
+
* '''[https://web.archive.org/web/20110927001216/http://www.microstrategy.com/Software/Products/Service_Modules/DataMining_Services/index.asp MicroStrategy]''': поддерживает PMML 2.0, 2.1, 3.0, 3.1, 3.2 и 4.0 для [[linear regression|линейной регрессии]], [[Логистическая регрессия|логистической регрессии]], деревьев решений, [[Кластерный анализ|кластерного анализа]], [[Association rule|ассоциативных правил]], [[Временной ряд|временных рядов]], [[Искусственная нейронная сеть|нейронных сетей]] и [[Метод опорных векторов|метода опорных векторов]].
* '''[http://opendatagroup.com/open-source/augustus-scoring-engine/ Open Data Group’s Augustus]''': создаёт PMML 4.0 для деревьев, наивного байесовского классификатора и моделей на основе набора правил. Принимает PMML 4.0 модели деревьев, наивного байесовского классификатора, на основе набора правил и регрессионные модели. Предыдущие версии создавали и принимали регрессионные модели, модели деревьев и наивного байесовского классификатора.
+
* '''[https://web.archive.org/web/20101229195853/http://opendatagroup.com/open-source/augustus-scoring-engine/ Open Data Group’s Augustus]''': создаёт PMML 4.0 для деревьев, наивного байесовского классификатора и моделей на основе набора правил. Принимает PMML 4.0 модели деревьев, наивного байесовского классификатора, на основе набора правил и регрессионные модели. Предыдущие версии создавали и принимали регрессионные модели, модели деревьев и наивного байесовского классификатора.
 
* '''[http://www.oracle.com/technetwork/database/options/odm/index.html Oracle Data Mining]''': поддерживает основные возможности PMML 3.1 для регрессионных моделей. Импортированные модели становятся моделями Oracle Data Mining (ODM), пригодными к выгрузке в Exadata.
 
* '''[http://www.oracle.com/technetwork/database/options/odm/index.html Oracle Data Mining]''': поддерживает основные возможности PMML 3.1 для регрессионных моделей. Импортированные модели становятся моделями Oracle Data Mining (ODM), пригодными к выгрузке в Exadata.
 
* '''[http://www.pervasivedatarush.com Pervasive DataRush]''': создаёт и принимает PMML 3.2 для регрессионных моделей, деревьев решений и [[наивный байесовский классификатор|наивного байесовского классификатора]]. Создает PMML 3.2 для [[Association rule|ассоциативных правил]] и [[Кластерный анализ|кластерного анализа]] (K-means Center-Based).
 
* '''[http://www.pervasivedatarush.com Pervasive DataRush]''': создаёт и принимает PMML 3.2 для регрессионных моделей, деревьев решений и [[наивный байесовский классификатор|наивного байесовского классификатора]]. Создает PMML 3.2 для [[Association rule|ассоциативных правил]] и [[Кластерный анализ|кластерного анализа]] (K-means Center-Based).
Строка 112: Строка 112:
 
* '''[http://rattle.togaware.com/ Rattle/R]''': использует [[R (язык программирования)]] для построения нескольких прогнозных моделей. Предлагает пакет PMML для экспорта моделей на R в PMML 3.2. Пакет поддерживает экспорт моделей [[Метод опорных векторов|метода опорных векторов]], линейной регрессии, [[Логистическая регрессия|логистической регрессии]], деревьев решений, [[random forest|алгоритма случайного леса]], [[Искусственная нейронная сеть|нейронных сетей]], [[K-means|алгоритма к-средних]] и иерархической кластеризации, а также [[Association rule|ассоциативных правил]].
 
* '''[http://rattle.togaware.com/ Rattle/R]''': использует [[R (язык программирования)]] для построения нескольких прогнозных моделей. Предлагает пакет PMML для экспорта моделей на R в PMML 3.2. Пакет поддерживает экспорт моделей [[Метод опорных векторов|метода опорных векторов]], линейной регрессии, [[Логистическая регрессия|логистической регрессии]], деревьев решений, [[random forest|алгоритма случайного леса]], [[Искусственная нейронная сеть|нейронных сетей]], [[K-means|алгоритма к-средних]] и иерархической кластеризации, а также [[Association rule|ассоциативных правил]].
 
* '''[http://www.salford-systems.com/cart.php Salford-Systems CART]''': система деревьев решений, создающая PMML 3.1.
 
* '''[http://www.salford-systems.com/cart.php Salford-Systems CART]''': система деревьев решений, создающая PMML 3.1.
* '''[http://www.sand.com/options/pmml/ SAND CDBMS 6.1 PMML Extension]''': принимает PMML версий 3.1 и 3.2 для нескольких моделей интеллектуального анализа данных, включая модели [[Association rule|ассоциативных правил]], кластеризации, регрессии, [[Искусственная нейронная сеть|нейронных сетей]], [[наивный байесовский классификатор|наивного байесовского классификатора]], [[Метод опорных векторов|метода опорных векторов]], набора правил и деревьев решений. Также принимает элементы препроцессинга и встроенные функции.
+
* '''[https://web.archive.org/web/20101122131816/http://www.sand.com/options/pmml/ SAND CDBMS 6.1 PMML Extension]''': принимает PMML версий 3.1 и 3.2 для нескольких моделей интеллектуального анализа данных, включая модели [[Association rule|ассоциативных правил]], кластеризации, регрессии, [[Искусственная нейронная сеть|нейронных сетей]], [[наивный байесовский классификатор|наивного байесовского классификатора]], [[Метод опорных векторов|метода опорных векторов]], набора правил и деревьев решений. Также принимает элементы препроцессинга и встроенные функции.
 
* '''[http://www.sas.com/technologies/analytics/datamining/miner/ SAS Enterprise Miner]''': создаёт PMML 2.1 и 3.1 для нескольких моделей интеллектуального анализа данных, включая модели линейной регрессии, [[Логистическая регрессия|логистической регрессии]], деревьев решений, [[Искусственная нейронная сеть|нейронных сетей]], [[K-means|алгоритма к-средних]] и [[Association rule|ассоциативных правил]].
 
* '''[http://www.sas.com/technologies/analytics/datamining/miner/ SAS Enterprise Miner]''': создаёт PMML 2.1 и 3.1 для нескольких моделей интеллектуального анализа данных, включая модели линейной регрессии, [[Логистическая регрессия|логистической регрессии]], деревьев решений, [[Искусственная нейронная сеть|нейронных сетей]], [[K-means|алгоритма к-средних]] и [[Association rule|ассоциативных правил]].
 
* ''' [http://www.statsoft.com STATISTICA]''': создаёт PMML 2.0 и 3.0 для анализа моделей линейной регрессии, [[Логистическая регрессия|логистической регрессии]], деревьев решений, [[Метод опорных векторов|метода опорных векторов]] и [[Искусственная нейронная сеть|нейронных сетей]]
 
* ''' [http://www.statsoft.com STATISTICA]''': создаёт PMML 2.0 и 3.0 для анализа моделей линейной регрессии, [[Логистическая регрессия|логистической регрессии]], деревьев решений, [[Метод опорных векторов|метода опорных векторов]] и [[Искусственная нейронная сеть|нейронных сетей]]

Версия от 23:00, 6 июля 2019

Язык разметки для прогнозного моделирования (Predictive Model Markup Language — PMML) является языком разметки на основе XML, разработанным Data Mining Group (DMG) и обеспечивающим приложениям способ определения моделей, относящихся к прогнозной аналитике и анализу данных, а также обмен такими моделями между PMML-совместимыми приложениями.

PMML предоставляет приложениям независимый от производителей метод определения модели, поэтому проприетарные проблемы и несовместимости больше не являются препятствием для обмена моделями между приложениями. Он позволяет пользователям разрабатывать модели в приложении одного производителя и использовать приложения других производителей для визуализации, анализа, оценки и иного использования моделей. Ранее это было затруднено, но с PMML обмен моделями между совместимыми приложениями упростился.

Поскольку PMML — это стандарт на основе XML, его спецификация представлена в форме языка описания XML Schema.

Компоненты PMML

PMML содержит интуитивно понятную структуру для описания модели анализа данных, будь то искусственная нейронная сеть или логистическая регрессия.

Её можно описать следующей последовательностью компонент[1][2]:

  • Заголовок (Header): содержит общую информацию о документе PMML, например, информацию об авторском праве на модель, её описание, информацию о приложении, использованном для создания модели, например его название и версию. Он также содержит атрибут для временной метки, используемый для определения даты создания модели.
  • Словарь данных (Data Dictionary): содержит определения всех возможных полей, используемых в модели. Именно здесь поле определяется как непрерывное, категориальное или порядковое (атрибут optype). В зависимости от этого определения затем определяются соответствующие диапазоны значений, а также тип данных (например, строка или тип с двойной точностью).
  • Преобразования данных (Data Transformations): преобразования позволяют отобразить пользовательские данные в требуемой форме для использования модели интеллектуального анализа данных. PMML определяет несколько видов простых преобразований данных.
    • Нормализация (Normalization): отображает значения в числа, вход может быть непрерывным или дискретным.
    • Дискретизация (Discretization): отображает непрерывные значения в дискретные значения.
    • Отображение значений (Value mapping): отображает дискретные значения в дискретные значения.
    • Функции (Functions): вычисляет значения путём применения функции к одному или нескольким параметрам.
    • Агрегация (Aggregation): используется для суммирования или сборки группы значений.
  • Модель (Model): содержит определение модели интеллектуального анализа данных. Многослойная искусственная нейронная сеть прямого распространения является наиболее распространенным представлением нейронных сетей в современных приложениях, учитывая популярность и эффективность, связанные с её алгоритмом обучения, известным как метод обратного распространения ошибки. Такая сеть представлена в PMML элементом «NeuralNetwork», содержащим следующие атрибуты:
    • Название модели (атрибут modelName)
    • Название функции (атрибут functionName)
    • Название алгоритма (атрибут algorithmName)
    • Функция активации (атрибут activationFunction)
    • Количество слоев (атрибут numberOfLayers)

За этой информацией следуют три вида нейронных слоёв, которые определяют архитектуру модели нейронной сети, представленной документом PMML. Это атрибуты NeuralInputs, NeuralLayer и NeuralOutputs. Помимо нейронных сетей, PMML позволяет представлять многие другие модели интеллектуального анализа данных, включая метод опорных векторов, ассоциативные правила, наивный байесовский классификатор, модели кластеризации, текстовые модели, деревья принятия решений, а также различные регрессионные модели.

  • Схема анализа (Mining Schema): схема интеллектуального анализа данных содержит список всех полей, используемых в модели. Это может быть подмножество полей, определённое в словаре данных. Она содержит конкретные сведения о каждом поле, такие как:
    • Название (атрибут name): должно ссылаться на поле в словаре данных
    • Тип использования (атрибут usageType): определяет способ использования поля в модели. Стандартные значения: активное, прогнозируемое и дополнительное. Прогнозируемыми являются те поля, значения которых прогнозируются моделью.
    • Обработка выбросов (атрибут outliers): определяет используемый способ обработки выбросов. В PMML выбросы можно рассматривать как отсутствующие значения, как экстремальные значения (на основании определения верхних и нижних значений для той или иной области) или как есть.
    • Правило замены отсутствующих значений (атрибут missingValueReplacement): если этот атрибут указан, то отсутствующее значение автоматически заменяется заданным значением.
    • Обработка отсутствующего значения (атрибут missingValueTreatment): показывает, чем заменяется отсутствующее значение (например, значением, средним или медианой).
  • Цели (Targets): позволяют выполнять пост-обработку прогнозируемого значения в формате масштабирования, если выход модели непрерывен. Цели могут быть также использованы для задач классификации. В этом случае атрибут priorProbability указывает вероятности по умолчанию для соответствующей категории цели. Он используется, если логика прогнозирования не производит результат сама по себе. Это может произойти, например, если входное значение отсутствует, и нет другого способа определить недостающие значения.
  • Выход (Output): этот элемент может быть использован, чтобы указать все требуемые поля вывода, ожидаемые от модели. Это особенности прогнозируемого поля, а также обычно само прогнозируемое значение, вероятность, близость к кластеру (для моделей кластеризации), стандартная ошибка и т. д.

PMML 4.x

Версия PMML, 4.0, была выпущена 16 июня 2009[3][4][5].

Среди новых возможностей:

PMML 4.1 была выпущена 31 декабря 2011.[6][7]

PMML 4.2 была выпущена 28 февраля 2014.[8][9]

PMML 4.3 была выпущена 23 августа 2016.[10][11]

Среди новых возможностей:

  • Новые типы моделей:
    • Gaussian Process
    • Байесова сеть
  • новые встроенные функции
  • уточнение формулировок и доработки в документации

История выпусков

Версия 0.7 Июль 1997
Версия 0.9 Июль 1998
Версия 1.0 Август 1999
Версия 1.1 Август 2000
Версия 2.0 Август 2001
Версия 2.1 Март 2003
Версия 3.0 Октябрь 2004
Версия 3.1 Декабрь 2005
Версия 3.2 Май 2007
Версия 4.0 Июнь 2009
Версия 4.1 Декабрь 2011
Версия 4.2 Февраль 2014
Версия 4.2.1 Март 2015
Версия 4.3 Август 2016

Продукты, поддерживающие PMML

Спектр программных продуктов, предлагаемых для создания и использования PMML:

Генератор преобразований

PMML предлагает большой набор преобразований данных, в том числе отображение значений, нормализацию и дискретизацию. Он также предлагает несколько встроенных функций, а также арифметические и логические операции, которые могут быть объединены для представления сложных этапов предварительной обработки. С использованием Transformations Generator можно графически создать преобразование и получить соответствующий код на PMML.

Примечания

Ссылки