PMML: различия между версиями

Материал из in.wiki
Перейти к навигации Перейти к поиску
w>KrBot
м (+ {{изолированная статья}})
 
(не показано 38 промежуточных версий 19 участников)
Строка 1: Строка 1:
[[File:PMML Logo.png|right]] '''Язык разметки для прогнозного моделирования''' ('''Predictive Model Markup Language - PMML''') является [[ Язык разметки | языком разметки ]] на основе [[XML]], разработанным Data Mining Group (DMG), и обеспечивающим приложениям способ определения моделей, относящихся к [[Прогнозная аналитика | прогнозной аналитике]] и [[Data Mining|анализу данных]], а также обмен такими моделями между PMML-совместимыми приложениями.
+
'''Язык разметки для прогнозного моделирования''' ('''Predictive Model Markup Language — PMML''') является [[Язык разметки|языком разметки]] на основе [[XML]], разработанным [[Data Mining Group]] (DMG) и обеспечивающим приложениям способ определения моделей, относящихся к [[Прогнозная аналитика|прогнозной аналитике]] и [[Data Mining|анализу данных]], а также обмен такими моделями между PMML-совместимыми приложениями.
  
PMML предоставляет приложениям независимый от производителей метод определения модели, поэтому проприетарные проблемы и несовместимости больше не являются препятствием для обмена моделями между приложениями. Он позволяет пользователям разрабатывать модели в приложении одного производителя и использовать приложения других производителей для визуализации, анализа, оценки и иного использовани\ моделей. Ранее это было затруднено, но с PMML, обмен моделями между совместимыми приложениями упростился.
+
PMML предоставляет приложениям независимый от производителей метод определения модели, поэтому проприетарные проблемы и несовместимости больше не являются препятствием для обмена моделями между приложениями. Он позволяет пользователям разрабатывать модели в приложении одного производителя и использовать приложения других производителей для визуализации, анализа, оценки и иного использования моделей. Ранее это было затруднено, но с PMML обмен моделями между совместимыми приложениями упростился.
  
Поскольку PMML - это стандарт на основе XML, его спецификация представлена в форме языка описания [[XML Schema]].
+
Поскольку PMML — это стандарт на основе XML, его спецификация представлена в форме языка описания [[XML Schema]]. Более 30 организаций анонсировали продукты, поддерживающие PMML<ref>{{cite web|url=http://dmg.org/pmml/products.html|publisher=Data Mining Group|title=PMML Powered|accessdate=December 14, 2017}}</ref>.
  
==Компоненты PMML==
+
== Компоненты PMML ==
 
PMML содержит интуитивно понятную структуру для описания модели анализа данных, будь то [[искусственная нейронная сеть]] или [[логистическая регрессия]].
 
PMML содержит интуитивно понятную структуру для описания модели анализа данных, будь то [[искусственная нейронная сеть]] или [[логистическая регрессия]].
  
[[File:PMMLComponents.jpg|right|350px|H3|]]
+
Её можно описать следующей последовательностью компонент<ref>A. Guazzelli, M. Zeller, W. Chen, and G. Williams. [http://journal.r-project.org/2009-1/RJournal_2009-1_Guazzelli+et+al.pdf PMML: An Open Standard for Sharing Models] {{Wayback|url=http://journal.r-project.org/2009-1/RJournal_2009-1_Guazzelli+et+al.pdf |date=20091123044852 }}. ''The R Journal'', Volume 1/1, May 2009.</ref><ref>A. Guazzelli, W. Lin, T. Jena (2010). [https://www.amazon.com/dp/1452858268 PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics] {{Wayback|url=https://www.amazon.com/dp/1452858268 |date=20220618081819 }}. CreateSpace.</ref>:
  
Её можно описать следующей последовательностью компонент:<ref>A. Guazzelli, M. Zeller, W. Chen, and G. Williams. [http://journal.r-project.org/2009-1/RJournal_2009-1_Guazzelli+et+al.pdf PMML: An Open Standard for Sharing Models]. ''The R Journal'', Volume 1/1, May 2009.</ref><ref>A. Guazzelli, W. Lin, T. Jena (2010). [http://www.amazon.com/dp/1452858268 PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics]. CreateSpace.</ref>
+
* '''Заголовок (Header)''': содержит общую информацию о документе PMML, например, информацию об авторском праве на модель, её описание, информацию о приложении, использованном для создания модели, например его название и версию. Он также содержит атрибут для временной метки, используемый для определения даты создания модели.
 
+
* '''Словарь данных (Data Dictionary)''': содержит определения всех возможных полей, используемых в модели. Именно здесь поле определяется как непрерывное, категориальное или порядковое (атрибут optype). В зависимости от этого определения затем определяются соответствующие диапазоны значений, а также тип данных (например, строка или тип с двойной точностью).
* '''Заголовок (Header)''': содержит общую информацию о документе PMML, например, информацию об авторском праве на модель, ее описание, информацию о приложении, использованном для создания модели, например его название и версию. Он также содержит атрибут для временной метки, используемый для определения даты создания модели.  
+
* '''Преобразования данных (Data Transformations)''': преобразования позволяют отобразить пользовательские данные в требуемой форме для использования модели интеллектуального анализа данных. PMML определяет несколько видов простых преобразований данных.
 
 
* '''Словарь данных (Data Dictionary)''': содержит определения всех возможных полей, используемых в модели. Именно здесь поле определяется как непрерывное, категориальное, или порядковое (атрибут optype). В зависимости от этого определения затем определяются соответствующие диапазоны значений, а также тип данных (например, строка или тип с двойной точностью).  
 
 
 
* '''Преобразования данных (Data Transformations)''': преобразования позволяют отобразить пользовательские данные в требуемой форме для использования модели интеллектуального анализа данных. PMML определяет несколько видов простых преобразований данных.  
 
 
** Нормализация (Normalization): отображает значения в числа, вход может быть непрерывным или дискретным.
 
** Нормализация (Normalization): отображает значения в числа, вход может быть непрерывным или дискретным.
 
** Дискретизация (Discretization): отображает непрерывные значения в дискретные значения.
 
** Дискретизация (Discretization): отображает непрерывные значения в дискретные значения.
 
** Отображение значений (Value mapping): отображает дискретные значения в дискретные значения.
 
** Отображение значений (Value mapping): отображает дискретные значения в дискретные значения.
** Функции (Functions): вычисляет значения путем применения функции к одному или нескольким параметрам.
+
** Функции (Functions): вычисляет значения путём применения функции к одному или нескольким параметрам.
 
** Агрегация (Aggregation): используется для суммирования или сборки группы значений.
 
** Агрегация (Aggregation): используется для суммирования или сборки группы значений.
 
+
* '''Модель (Model)''': содержит определение модели интеллектуального анализа данных. Многослойная [[искусственная нейронная сеть]] [[feedforward neural network|прямого распространения]] является наиболее распространенным представлением нейронных сетей в современных приложениях, учитывая популярность и эффективность, связанные с её алгоритмом обучения, известным как [[метод обратного распространения ошибки]]. Такая сеть представлена в PMML элементом «NeuralNetwork», содержащим следующие атрибуты:
* '''Модель (Model)''': содержит определение модели интеллектуального анализа данных. Многослойная [[искусственная нейронная сеть]] [[feedforward neural network | прямого распространения]] является наиболее распространенным представлением нейронных сетей в современных приложениях, учитывая популярность и эффективность, связанные с её алгоритмом обучения, известным как [[метод обратного распространения ошибки]]. Такая сеть представлен в PMML элементом "NeuralNetwork", содержащим следующие атрибуты:
 
 
** Название модели (атрибут modelName)
 
** Название модели (атрибут modelName)
 
** Название функции (атрибут functionName)
 
** Название функции (атрибут functionName)
Строка 29: Строка 24:
 
** Функция активации (атрибут activationFunction)
 
** Функция активации (атрибут activationFunction)
 
** Количество слоев (атрибут numberOfLayers)
 
** Количество слоев (атрибут numberOfLayers)
За этой информацией следуют три вида нейронных слоев, которые определяют архитектуру модели нейронной сети, представленной документом PMML. Это атрибуты NeuralInputs, NeuralLayer и NeuralOutputs. Помимо нейронных сетей, PMML позволяет представлять многие другие модели интеллектуального анализа данных, включая [[метод опорных векторов]], [[Assotiation rules | ассоциативные правила]], [[наивный байесовский классификатор]], модели кластеризации, текстовые модели, [[Дерево принятия решений | деревья принятия решений]], а также различные регрессионные модели.
+
За этой информацией следуют три вида нейронных слоёв, которые определяют архитектуру модели нейронной сети, представленной документом PMML. Это атрибуты NeuralInputs, NeuralLayer и NeuralOutputs. Помимо нейронных сетей, PMML позволяет представлять многие другие модели интеллектуального анализа данных, включая [[метод опорных векторов]], [[Assotiation rules|ассоциативные правила]], [[наивный байесовский классификатор]], модели кластеризации, текстовые модели, [[Дерево принятия решений|деревья принятия решений]], а также различные регрессионные модели.
  
* '''Схема анализа (Mining Schema)''': схема интеллектуального анализа данных содержит список всех полей, используемых в модели. Это может быть подмножество полей, определенное в словаре данных. Она содержит конкретные сведения о каждом поле, такие как:
+
* '''Схема анализа (Mining Schema)''': схема интеллектуального анализа данных содержит список всех полей, используемых в модели. Это может быть подмножество полей, определённое в словаре данных. Она содержит конкретные сведения о каждом поле, такие как:
 
** Название (атрибут name): должно ссылаться на поле в словаре данных
 
** Название (атрибут name): должно ссылаться на поле в словаре данных
** Тип использования (атрибут usageType): определяет способ использования поля в модели. Стандартные значения: активное, прогнозируемое, и дополнительное. Прогнозируемыми являются те поля, значения которых прогнозируются моделью.
+
** Тип использования (атрибут usageType): определяет способ использования поля в модели. Стандартные значения: активное, прогнозируемое и дополнительное. Прогнозируемыми являются те поля, значения которых прогнозируются моделью.
** Обработка выбросов (атрибут outliers): определяет используемый спосбо обработки выбросов. В PMML выбросы можно рассматривать как отсутствующие значения, как экстремальные значения (на основании определения верхних и нижних значений для той или иной области), или как есть.  
+
** Обработка выбросов (атрибут outliers): определяет используемый способ обработки выбросов. В PMML выбросы можно рассматривать как отсутствующие значения, как экстремальные значения (на основании определения верхних и нижних значений для той или иной области) или как есть.
** Правило замены отсусттвующих значений (атрибут missingValueReplacement): если этот атрибут указан, то отсутствующее значение автоматически заменяется заданным значением.
+
** Правило замены отсутствующих значений (атрибут missingValueReplacement): если этот атрибут указан, то отсутствующее значение автоматически заменяется заданным значением.
 
** Обработка отсутствующего значения (атрибут missingValueTreatment): показывает, чем заменяется отсутствующее значение (например, значением, средним или медианой).
 
** Обработка отсутствующего значения (атрибут missingValueTreatment): показывает, чем заменяется отсутствующее значение (например, значением, средним или медианой).
 +
* '''Цели (Targets)''': позволяют выполнять пост-обработку прогнозируемого значения в формате масштабирования, если выход модели непрерывен. Цели могут быть также использованы для задач классификации. В этом случае атрибут priorProbability указывает вероятности по умолчанию для соответствующей категории цели. Он используется, если логика прогнозирования не производит результат сама по себе. Это может произойти, например, если входное значение отсутствует, и нет другого способа определить недостающие значения.
 +
* '''Выход (Output)''': этот элемент может быть использован, чтобы указать все требуемые поля вывода, ожидаемые от модели. Это особенности прогнозируемого поля, а также обычно само прогнозируемое значение, вероятность, близость к кластеру (для моделей кластеризации), стандартная ошибка и т. д.
  
* '''Цели (Targets)''': позволяют пост-обработку прогнозируемого значения в формате масштабирования, если выход модели непрерывен. Цели могут быть также использованы для задач классификации. В этом случае атрибут priorProbability указывает вероятности по умолчанию для соответствующей категории цели. Он используется, если логика прогнозирования не производит результат сама по себе. Это может произойти, например, если входное значение отсутствует, и нет другого способа определить недостающие значения.
+
== История выпусков ==
 
+
PMML был разработан [[Робертом Ли Гроссман|Робертом Ли Гроссманом]], тогдашним директором Национального центра интеллектуального анализа данных (National Center for Data Mining Language) при Иллинойсском университете в Чикаго.  
* '''Выход (Output)''': этот элемент может быть использован, чтобы указать все требуемые поля вывода, ожидаемые от модели. Это особенности прогнозируемого поля а также обычно само прогнозируемое значение, вероятность, близость к кластеру (для моделей кластеризации), стандартная ошибка и т.д.
 
  
==PMML 4.0==
+
Версия 0.9 - последняя версия, выпущенная лично им<ref>{{Cite web|title=The management and mining of multiple predictive models using the predictive modeling markup language|url=https://www.researchgate.net/publication/222303387_The_management_and_mining_of_multiple_predictive_models_using_the_predictive_modeling_markup_language|website=ResearchGate|accessdate=2015-12-21|doi=10.1016/S0950-5849(99)00022-1}}</ref>, последующие велись [[Data Mining Group]]<ref>{{cite web|url=http://dmg.org/|title=Data Mining Group|accessdate=December 14, 2017|quote=The DMG is proud to host the working groups that develop the '''Predictive Model Markup Language (PMML)''' and the '''Portable Format for Analytics (PFA)''', two complementary standards that simplify the deployment of analytic models.}}</ref>.
Последняя версия PMML, 4.0, была выпущена 16 июня 2009.<ref>[http://www.dmg.org/v4-0/Changes.html Data Mining Group website | PMML 4.0 - Changes from PMML 3.2]</ref><ref>[http://adapasupport.zementis.com/2009/06/pmml-40-is-here.html Zementis website | PMML 4.0 is here!]</ref><ref>R. Pechter. [http://www.sigkdd.org/explorations/issues/11-1-2009-07/p3V11n1.pdf What's PMML and What's New in PMML 4.0?] ''The ACM SIGKDD Explorations Newsletter'', Volume 11/1, July 2009.</ref>
+
{| cellspacing="1" cellpadding="1" border="0" width="250"
 +
|-
 +
|Версия 0.7||Июль 1997
 +
|-
 +
|Версия 0.9||Июль 1998
 +
|-
 +
|Версия 1.0||Август 1999
 +
|-
 +
|Версия 1.1||Август 2000
 +
|-
 +
|Версия 2.0||Август 2001
 +
|-
 +
|Версия 2.1||Март 2003
 +
|-
 +
|Версия 3.0||Октябрь 2004
 +
|-
 +
|Версия 3.1||Декабрь 2005
 +
|-
 +
|Версия 3.2||Май 2007
 +
|-
 +
|Версия 4.0||Июнь 2009
 +
|-
 +
|Версия 4.1||Декабрь 2011
 +
|-
 +
|Версия 4.2||Февраль 2014
 +
|-
 +
|Версия 4.2.1||Март 2015
 +
|-
 +
|Версия 4.3||Август 2016
 +
|-
 +
|Версия 4.4
 +
|Ноябрь 2019
 +
|}
 +
== PMML 4.x ==
 +
Версия PMML, 4.0, была выпущена 16 июня 2009<ref>[http://www.dmg.org/v4-0/Changes.html Data Mining Group website | PMML 4.0 — Changes from PMML 3.2] {{webarchive|url=https://archive.today/20120728171446/http://www.dmg.org/v4-0/Changes.html |date=2012-07-28 }}</ref><ref>{{Cite web |url=http://adapasupport.zementis.com/2009/06/pmml-40-is-here.html |title=Zementis website {{!}} PMML 4.0 is here! |access-date=2011-09-02 |archive-url=https://web.archive.org/web/20111003223232/http://adapasupport.zementis.com/2009/06/pmml-40-is-here.html |archive-date=2011-10-03 |url-status=dead }}</ref><ref>R. Pechter. [http://www.sigkdd.org/explorations/issues/11-1-2009-07/p3V11n1.pdf What’s PMML and What’s New in PMML 4.0?] {{Wayback|url=http://www.sigkdd.org/explorations/issues/11-1-2009-07/p3V11n1.pdf |date=20111006143027 }} ''The ACM SIGKDD Explorations Newsletter'', Volume 11/1, July 2009.</ref>.
  
 
Среди новых возможностей:
 
Среди новых возможностей:
  
* '''Улучшенные возможности препроцессинга''': Дополнения к встроенным функциям включают в себя спектр операций [[ Алгебра логики | алгебры логики]] и [[Оператор ветвления | операторов ветвления]].  
+
* '''Улучшенные возможности препроцессинга''': Дополнения к встроенным функциям включают в себя спектр операций [[Алгебра логики|алгебры логики]] и [[Оператор ветвления|операторов ветвления]].
 
+
* '''Модели [[Временной ряд|временных рядов]]''': Новые экспоненциальные модели [[Smoothing|сглаживания]]; а также точки интеграции [[ARIMA]], [[Seasonal adjustment|Seasonal Trend Decomposition]] и [[Spectral Analysis]], планируемых к включению в ближайшее время.
* '''Модели [[Временной ряд | временных рядов]]''': Новые экспоненциальные модели [[Smoothing | сглаживания]]; а также точки интеграции [[ARIMA]], [[Seasonal adjustment|Seasonal Trend Decomposition]] и [[Spectral Analysis]], планируемых к включению в ближайшее время.
 
 
 
 
* '''Пояснение модели''': Сохранение показателей оценки и эффективности модели в самом файле PMML.
 
* '''Пояснение модели''': Сохранение показателей оценки и эффективности модели в самом файле PMML.
 +
* '''Множественные модели''': Возможности для композиции моделей, ансамблей и сегментации (например, объединение [[Регрессионный анализ|регрессионного анализа]] и деревьев решений).
 +
* '''Расширение существующих элементов''': Добавление [[multi-class classification|многоклассовой классификации]] для [[Метод опорных векторов|метода опорных векторов]], улучшенное представление [[Association rule|ассоциативных правил]], и включение [[Proportional hazards models|моделей пропорциональных рисков]].
  
* '''Множественные модели''': Возможности для композиции моделей, ансамблей, и сегментации (например, объединение [[Регрессионный анализ | регрессионного анализа]] и деревьев решений).  
+
PMML 4.1 была выпущена 31 декабря 2011<ref>{{Cite web |url=http://www.dmg.org/v4-1/Changes.html |title=Data Mining Group website {{!}} PMML 4.1 - Changes from PMML 4.0 |access-date=2017-10-24 |archive-date=2017-10-25 |archive-url=https://web.archive.org/web/20171025075538/http://dmg.org/v4-1/Changes.html |url-status=live }}</ref><ref>{{Cite web |url=http://www.predictive-analytics.info/2012/01/pmml-41-is-here-mature-standard-for.html |title=Predictive Analytics Info website {{!}} PMML 4.1 is here! |access-date=2017-10-24 |archive-date=2017-10-25 |archive-url=https://web.archive.org/web/20171025074315/http://www.predictive-analytics.info/2012/01/pmml-41-is-here-mature-standard-for.html |url-status=live }}</ref>.
 
 
* '''Расширение существующих элементов''': Добавление [[multi-class classification | многоклассовой классификации]] для [[Метод опорных векторов | метода опорных векторов]], улучшенное представление [[Association rule|ассоциативных правил]], и включение [[Proportional hazards models|моделей пропорциональных рисков]].
 
  
==История выпусков==
+
В неё были включены следующие усовершенствования:
<table cellspacing="1" cellpadding="1" border="0" width="250">
 
        <tr><td>Версия 0.7</td><td>July 1997</td></tr>
 
        <tr><td>Версия 0.9</td><td>July 1998</td></tr>
 
        <tr><td>Версия 1.0</td><td>August 1999</td></tr>
 
        <tr><td>Версия 1.1</td><td>August 2000</td></tr>
 
        <tr><td>Версия 2.0</td><td>August 2001</td></tr>
 
        <tr><td>Версия 2.1</td><td>March 2003</td></tr>
 
        <tr><td>Версия 3.0</td><td>October 2004</td></tr>
 
        <tr><td>Версия 3.1</td><td>December 2005</td></tr>
 
        <tr><td>Версия 3.2</td><td>May 2007</td></tr>
 
        <tr><td>Версия 4.0</td><td>June 2009</td></tr>
 
</table>
 
  
==Продукты, поддерживающие PMML==
+
* Улучшенные возможности предварительной обработки: В число встроенных функций добавлены ряд булевых операций и функция If-Then-Else;
Спектр программных продуктов, предлагаемых для создания и использования PMML:
+
* Модели временных рядов: Новые модели экспоненциального сглаживания; а также [[Плэйсхолдер|плэйсхолдеры]] для ARIMA, разложения сезонных трендов и оценки спектральной плотности, поддержка которых планируется в ближайшем будущем;
 +
* Описание модели: Сохранение результатов оценки и показателей эффективности модели в самом файле PMML;
 +
* Множественные модели: Возможности композиции моделей, ансамблей и сегментации (например, объединение регрессии и деревьев решений);
 +
* Расширения существующих элементов: Добавление многоклассовой классификации для метода опорных векторов, улучшенное представление правил ассоциации и добавление моделей регрессии Кокса.
  
* '''[http://angoss.com/analytics_software/KnowledgeSTUDIO.php Angoss KnowledgeSTUDIO]''': создает PMML 3.2 для регрессионных моделей (логистических и линейных), деревьев решений, [[Кластерный анализ | кластерного анализа]], [[Искусственная нейронная сеть | нейронных сетей]] и моделей на основе набора правил (используется для представления показателей).
+
PMML 4.2 была выпущена 28 февраля 2014<ref>[http://www.dmg.org/v4-2/Changes.html Data Mining Group website | PMML 4.2 - Changes from PMML 4.1] {{webarchive|url=https://archive.today/20140520224403/http://www.dmg.org/v4-2/Changes.html |date=2014-05-20 }}</ref><ref>{{Cite web |url=http://www.predictive-analytics.info/2014/02/pmml-42-is-here-what-changed-what-is-new.html |title=Predictive Analytics Info website {{!}} PMML 4.2 is here! |access-date=2017-10-24 |archive-date=2017-10-25 |archive-url=https://web.archive.org/web/20171025075119/http://www.predictive-analytics.info/2014/02/pmml-42-is-here-what-changed-what-is-new.html |url-status=live }}</ref>.
  
* '''[http://angoss.com/analytics_software/KnowledgeSEEKER.php Angoss KnowledgeSEEKER]''': создает PMML 3.2 для деревьев решений.
+
Новые функции включают:  
  
* '''[http://angoss.com/analytics_software/StrategyBUILDER.php Angoss StrategyBuilder (модуль расширения для KnowledgeSEEKER и KnowledgeSTUDIO)]''': создает PMML 3.2 для деревьев решений (используется для представления деревьев стратегии).
+
* Преобразования: новые элементы для реализации интеллектуального анализа текста
 +
* Новые встроенные функции для реализации регулярных выражений''':''' сопоставление, объединение и замена
 +
* Упрощенные выходные данные для постобработки
 +
* Улучшения элементов оценочной карты и наивной байесовской модели
  
* '''[http://www-306.ibm.com/software/data/db2/warehouse/ IBM InfoSphere Warehouse]''': создает PMML 3.0 и 3.1 только для последовательностей моделей. Принимает (оценивает и визуализирует) PMML 3.1 и младше.
+
PMML 4.3 была выпущена 23 августа 2016<ref>{{Cite web |url=http://dmg.org/pmml/v4-3/Changes.html |title=Data Mining Group website {{!}} PMML 4.3 - Changes from PMML 4.2.1 |access-date=2017-10-24 |archive-date=2017-06-28 |archive-url=https://web.archive.org/web/20170628090158/http://dmg.org/pmml/v4-3/Changes.html |url-status=live }}</ref><ref>{{Cite web |url=https://sourceforge.net/projects/pmml/ |title=Predictive Model Markup Language product website {{!}} Project activity |access-date=2017-10-24 |archive-date=2018-06-12 |archive-url=https://web.archive.org/web/20180612001836/https://sourceforge.net/projects/pmml/ |url-status=live }}</ref>.
  
* '''[http://www.spss.com/software/modeler/ IBM SPSS Modeler]''': создает и оценивает PMML 3.2 и 4.0 для различных моделей.
+
Среди новых возможностей:
  
* '''[http://www.spss.com/software/statistics/ IBM SPSS Statistics]''': создает PMML 3.2 и 4.0 для различных моделей.
+
* Новые типы моделей:
 +
** Gaussian Process
 +
** Байесова сеть
 +
* новые встроенные функции
 +
* уточнение формулировок и доработки в документации
  
* '''[http://www.knime.com/ KNIME]''': создает и принимает PMML 4.0 для [[Искусственная нейронная сеть | нейронных сетей]],  деревьев решений, моделей кластеризации, регрессионных моделей, и [[Метод опорных векторов | метода опорных векторов]]. Начиная с версии 2.4.0, KNIME предлагает расширенную поддержку прдварительной обработки PMML, включая возможность правки существующего кода PMML.
+
PMML 4.4 была выпущена 27 ноября 2019<ref>{{Cite web |url=https://markets.businessinsider.com/news/stocks/the-data-mining-group-releases-predictive-model-markup-language-v4-4-1028722615?op=1 |title=The Data Mining Group releases Predictive Model Markup Language v4.4 |access-date=2023-01-19 |archive-date=2023-01-19 |archive-url=https://web.archive.org/web/20230119001049/https://markets.businessinsider.com/news/stocks/the-data-mining-group-releases-predictive-model-markup-language-v4-4-1028722615?op=1 |url-status=live }}</ref><ref>{{cite web|title=PMML 4.4.1 - General Structure|url=http://dmg.org/pmml/v4-4-1/GeneralStructure.html|website=Data Mining Group|access-date=12 July 2021}}</ref>.
  
* '''[http://www.kxen.com/ KXEN]''': создает PMML 3.2 для регрессионных моделей (том числе моделей интеллектуального анализа данных) и [[Кластерный анализ | кластерного анализа]].
+
== Продукты, поддерживающие PMML ==
 
+
Спектр программных продуктов, предлагаемых для создания и использования PMML:
* '''[http://www.microsoft.com/sqlserver/2008/en/us/analysis-services.aspx Microsoft SQL Server 2008 Analysis Services]''': создает и принимает PMML 2.1 для деревьев решений и [[Кластерный анализ | кластерного анализа]].
 
 
 
* '''[http://www.microstrategy.com/Software/Products/Service_Modules/DataMining_Services/index.asp MicroStrategy]''': поддерживает PMML 2.0, 2.1, 3.0, 3.1, 3.2 и 4.0 для [[linear regression | линейной регрессии]], [[Логистическая регрессия | логистической регрессии]], деревьев решений, [[Кластерный анализ | кластерного анализа]], [[Association rule|ассоциативных правил]], [[Временной ряд | временных рядов]], [[Искусственная нейронная сеть | нейронных сетей]] и [[Метод опорных векторов | метода опорных векторов]].
 
 
 
* '''[http://opendatagroup.com/open-source/augustus-scoring-engine/ Open Data Group's Augustus]''': Создает PMML 4.0 для деревьев, наивного байесовского классификатора и моделей на основе набора правил. Принимает PMML 4.0 модели деревьев, наивного байесовского классификатора, на основе набора правил и регрессионные модели. Предыдущие версии создавали и принимали регрессионные модели, модели деревьев и наивного байесовского классификатора.
 
  
 +
* '''[https://web.archive.org/web/20110712185838/http://www.angoss.com/analytics_software/KnowledgeSTUDIO.php Angoss KnowledgeSTUDIO]''': создаёт PMML 3.2 для регрессионных моделей (логистических и линейных), деревьев решений, [[Кластерный анализ|кластерного анализа]], [[Искусственная нейронная сеть|нейронных сетей]] и моделей на основе набора правил (используется для представления показателей).
 +
* '''[https://web.archive.org/web/20110712185247/http://www.angoss.com/analytics_software/KnowledgeSEEKER.php Angoss KnowledgeSEEKER]''': создаёт PMML 3.2 для деревьев решений.
 +
* '''[https://web.archive.org/web/20110420031556/http://www.angoss.com/analytics_software/StrategyBUILDER.php Angoss StrategyBuilder (модуль расширения для KnowledgeSEEKER и KnowledgeSTUDIO)]''': создает PMML 3.2 для деревьев решений (используется для представления деревьев стратегии).
 +
* '''[http://www-306.ibm.com/software/data/db2/warehouse/ IBM InfoSphere Warehouse]''': создаёт PMML 3.0 и 3.1 только для последовательностей моделей. Принимает (оценивает и визуализирует) PMML 3.1 и младше.
 +
* '''[http://www.spss.com/software/modeler/ IBM SPSS Modeler]''': создаёт и оценивает PMML 3.2 и 4.0 для различных моделей.
 +
* '''[http://www.spss.com/software/statistics/ IBM SPSS Statistics]''': создаёт PMML 3.2 и 4.0 для различных моделей.
 +
* '''[http://www.knime.com/ KNIME]''': создаёт и принимает PMML 4.0 для [[Искусственная нейронная сеть|нейронных сетей]], деревьев решений, моделей кластеризации, регрессионных моделей и [[Метод опорных векторов|метода опорных векторов]]. Начиная с версии 2.4.0, KNIME предлагает расширенную поддержку предварительной обработки PMML, включая возможность правки существующего кода PMML.
 +
* '''[http://www.kxen.com/ KXEN]''': создаёт PMML 3.2 для регрессионных моделей (том числе моделей интеллектуального анализа данных) и [[Кластерный анализ|кластерного анализа]].
 +
* '''[http://www.microsoft.com/sqlserver/2008/en/us/analysis-services.aspx Microsoft SQL Server 2008 Analysis Services]''': создаёт и принимает PMML 2.1 для деревьев решений и [[Кластерный анализ|кластерного анализа]].
 +
* '''[https://web.archive.org/web/20110927001216/http://www.microstrategy.com/Software/Products/Service_Modules/DataMining_Services/index.asp MicroStrategy]''': поддерживает PMML 2.0, 2.1, 3.0, 3.1, 3.2 и 4.0 для [[linear regression|линейной регрессии]], [[Логистическая регрессия|логистической регрессии]], деревьев решений, [[Кластерный анализ|кластерного анализа]], [[Association rule|ассоциативных правил]], [[Временной ряд|временных рядов]], [[Искусственная нейронная сеть|нейронных сетей]] и [[Метод опорных векторов|метода опорных векторов]].
 +
* '''[https://web.archive.org/web/20101229195853/http://opendatagroup.com/open-source/augustus-scoring-engine/ Open Data Group’s Augustus]''': создаёт PMML 4.0 для деревьев, наивного байесовского классификатора и моделей на основе набора правил. Принимает PMML 4.0 модели деревьев, наивного байесовского классификатора, на основе набора правил и регрессионные модели. Предыдущие версии создавали и принимали регрессионные модели, модели деревьев и наивного байесовского классификатора.
 
* '''[http://www.oracle.com/technetwork/database/options/odm/index.html Oracle Data Mining]''': поддерживает основные возможности PMML 3.1 для регрессионных моделей. Импортированные модели становятся моделями Oracle Data Mining (ODM), пригодными к выгрузке в Exadata.
 
* '''[http://www.oracle.com/technetwork/database/options/odm/index.html Oracle Data Mining]''': поддерживает основные возможности PMML 3.1 для регрессионных моделей. Импортированные модели становятся моделями Oracle Data Mining (ODM), пригодными к выгрузке в Exadata.
 
+
* '''[http://www.pervasivedatarush.com Pervasive DataRush]''': создаёт и принимает PMML 3.2 для регрессионных моделей, деревьев решений и [[наивный байесовский классификатор|наивного байесовского классификатора]]. Создает PMML 3.2 для [[Association rule|ассоциативных правил]] и [[Кластерный анализ|кластерного анализа]] (K-means Center-Based).
* '''[http://www.pervasivedatarush.com Pervasive DataRush]''': создает и принимает PMML 3.2 для регрессионных моделей, деревьев решений и [[наивный байесовский классификатор | наивного байесовского классификатора]]. Создает PMML 3.2 для [[Association rule|ассоциативных правил]] и [[Кластерный анализ | кластерного анализа]] (K-means Center-Based).
+
* '''[https://web.archive.org/web/20101130131330/http://www.predixionsoftware.com/predixion/PredixionProducts/PredixionPMMLConnexion.aspx Predixion PMML Connexion]''': принимает PMML 2.0, 2.1, 3.0, 3.1, 3.2, и 4.0 для нескольких моделей интеллектуального анализа данных, в том числе деревьев решений, моделей на основе набора правил, [[Метод опорных векторов|метода опорных векторов]], [[Искусственная нейронная сеть|нейронных сетей]], [[наивный байесовский классификатор|наивного байесовского классификатора]], линейной и [[Логистическая регрессия|логистической регрессии]], а также [[Кластерный анализ|кластерного анализа]].
 
+
* '''[http://rapidminer.com/ RapidMiner]''': использует свободное расширение PMML, несколько типов моделей можно экспортировать в PMML.
* '''[http://www.predixionsoftware.com/predixion/PredixionProducts/PredixionPMMLConnexion.aspx Predixion PMML Connexion]''': принимает PMML 2.0, 2.1, 3.0, 3.1, 3.2, и 4.0 для нескольких моделей интеллектуального анализа данных, в том числе деревьев решений, моделей на основе набора правил, [[Метод опорных векторов | метода опорных векторов]], [[Искусственная нейронная сеть | нейронных сетей]], [[наивный байесовский классификатор | наивного байесовского классификатора]], линейной и [[Логистическая регрессия | логистической регрессии]] а также [[Кластерный анализ | кластерного анализа]].
+
* '''[http://rattle.togaware.com/ Rattle/R]''': использует [[R (язык программирования)]] для построения нескольких прогнозных моделей. Предлагает пакет PMML для экспорта моделей на R в PMML 3.2. Пакет поддерживает экспорт моделей [[Метод опорных векторов|метода опорных векторов]], линейной регрессии, [[Логистическая регрессия|логистической регрессии]], деревьев решений, [[random forest|алгоритма случайного леса]], [[Искусственная нейронная сеть|нейронных сетей]], [[K-means|алгоритма к-средних]] и иерархической кластеризации, а также [[Association rule|ассоциативных правил]].
 
 
* '''[http://rapidminer.com/ RapidMiner]''': Использует свободное расширение PMML, несколько типов моделей можно экспортировать в PMML.  
 
 
 
* '''[http://rattle.togaware.com/ Rattle/R]''': Использует [[R (язык программирования)]] для построения нескольких прогнозных моделей. Предлагает пакет PMML для экспорта моделей на R в PMML 3.2. Пакет поддерживает экспорт моделей [[Метод опорных векторов | метода опорных векторов]], линейной регрессии, [[Логистическая регрессия | логистической регрессии]], деревьев решений, [[random forest | алгоритма случайного леса]], [[Искусственная нейронная сеть | нейронных сетей]], [[K-means | алгоритма к-средних]] и иерархической кластеризации, а также [[Association rule|ассоциативных правил]].
 
 
 
 
* '''[http://www.salford-systems.com/cart.php Salford-Systems CART]''': система деревьев решений, создающая PMML 3.1.
 
* '''[http://www.salford-systems.com/cart.php Salford-Systems CART]''': система деревьев решений, создающая PMML 3.1.
 +
* '''[https://web.archive.org/web/20101122131816/http://www.sand.com/options/pmml/ SAND CDBMS 6.1 PMML Extension]''': принимает PMML версий 3.1 и 3.2 для нескольких моделей интеллектуального анализа данных, включая модели [[Association rule|ассоциативных правил]], кластеризации, регрессии, [[Искусственная нейронная сеть|нейронных сетей]], [[наивный байесовский классификатор|наивного байесовского классификатора]], [[Метод опорных векторов|метода опорных векторов]], набора правил и деревьев решений. Также принимает элементы препроцессинга и встроенные функции.
 +
* '''[http://www.sas.com/technologies/analytics/datamining/miner/ SAS Enterprise Miner]''': создаёт PMML 2.1 и 3.1 для нескольких моделей интеллектуального анализа данных, включая модели линейной регрессии, [[Логистическая регрессия|логистической регрессии]], деревьев решений, [[Искусственная нейронная сеть|нейронных сетей]], [[K-means|алгоритма к-средних]] и [[Association rule|ассоциативных правил]].
 +
* ''' [http://www.statsoft.com STATISTICA]''': создаёт PMML 2.0 и 3.0 для анализа моделей линейной регрессии, [[Логистическая регрессия|логистической регрессии]], деревьев решений, [[Метод опорных векторов|метода опорных векторов]] и [[Искусственная нейронная сеть|нейронных сетей]]
 +
* ''' [http://spotfire.tibco.com TIBCO Spotfire Miner 8.1]''': создаёт и принимает PMML 2.0 для регрессионных моделей, деревьев решений, [[Искусственная нейронная сеть|нейронных сетей]], [[Кластерный анализ|кластерного анализа]] и [[наивный байесовский классификатор|наивного байесовского классификатора]].
 +
* ''' [http://www.teradata.com/ TERADATA Warehouse Miner 5.3.1]''': принимает от PMML 2.1 до 3.2 для регрессионных моделей, деревьев решений, [[Искусственная нейронная сеть|нейронных сетей]], [[Кластерный анализ|кластерного анализа]] и моделей интеллектуального анализа данных (регрессионного типа).
 +
* ''' [http://www.pentaho.com/ Weka (Pentaho)]''': принимает PMML 3.2 для регрессионных моделей, деревьев решений, [[Искусственная нейронная сеть|нейронных сетей]], системы правил и [[Метод опорных векторов|метода опорных векторов]].
 +
* '''[http://www.zementis.com Zementis ADAPA]''': пакетная и немедленная оценка PMML 2.0, 2.1, 3.0, 3.1, 3.2, и 4.0 для нескольких моделей интеллектуального анализа данных, включая модели деревьев решений, [[Association rule|ассоциативных правил]], [[Метод опорных векторов|метода опорных векторов]], [[Искусственная нейронная сеть|нейронных сетей]], [[наивный байесовский классификатор|наивного байесовского классификатора]], системы правил, линейной и [[Логистическая регрессия|логистической регрессии]], а также моделей регрессии Кокса (Cox) и [[Кластерный анализ|кластерного анализа]]. ADAPA также принимает все элементы пред- и постобработки PMML, включая преобразования, встроенные функции, выходы и цели.
 +
* '''[http://www.zementis.com/pmml.htm Zementis PMML Converter]''': проверяет, правит и преобразует файлы PMML версий 2.0, 2.1, 3.0, 3.1, 3.2, и 4.0.
 +
* '''[http://www.zementis.com/in-DB-plugin.htm Zementis Universal PMML Plug-in]''': оценка в базе данных для PMML 2.0, 2.1, 3.0, 3.1, 3.2, и 4.0 для нескольких моделей интеллектуального анализа. Доступна в EMC Greenplum Database.
 +
*[https://docs.intersystems.com/iris20191/csp/docbook/DocBook.UI.Page.cls?KEY=APMML '''Intersystems IRIS''']: принимает и выполняет модели PMML версий 4.1, 4.2, 4.3, 4.4.
  
* '''[http://www.sand.com/options/pmml/ SAND CDBMS 6.1 PMML Extension]''': принимает PMML версий 3.1 и 3.2 для нескольких моделей интеллектуального анализа данных, включая модели [[Association rule|ассоциативных правил]], кластеризации, регрессии, [[Искусственная нейронная сеть | нейронных сетей]], [[наивный байесовский классификатор | наивного байесовского классификатора]], [[Метод опорных векторов | метода опорных векторов]], набора правил и деревьев решений. Также принимает элементы препроцессинга и встроенные функции.
+
=== Генератор преобразований ===
 
+
PMML предлагает большой набор преобразований данных, в том числе отображение значений, нормализацию и дискретизацию. Он также предлагает несколько встроенных функций, а также арифметические и логические операции, которые могут быть объединены для представления сложных этапов предварительной обработки. С использованием [http://www.zementis.com/PMMLTransformations/PMMLTransformations.html Transformations Generator] можно графически создать преобразование и получить соответствующий код на PMML.
* '''[http://www.sas.com/technologies/analytics/datamining/miner/ SAS Enterprise Miner]''': создает PMML 2.1 и 3.1 для нескольких моделей интеллектуального анализа данных, включая модели линейной регрессии, [[Логистическая регрессия | логистической регрессии]], деревьев решений, [[Искусственная нейронная сеть | нейронных сетей]], [[K-means | алгоритма к-средних]] и [[Association rule|ассоциативных правил]].
 
 
 
*''' [http://www.statsoft.com STATISTICA]''': создает PMML 2.0 и 3.0 для анализа моделей  линейной регрессии, [[Логистическая регрессия | логистической регрессии]], деревьев решений, [[Метод опорных векторов | метода опорных векторов]] и [[Искусственная нейронная сеть | нейронных сетей]]
 
 
 
*''' [http://spotfire.tibco.com TIBCO Spotfire Miner 8.1]''': создает и принимает PMML 2.0 для регрессионных моделей, деревьев решений, [[Искусственная нейронная сеть | нейронных сетей]], [[Кластерный анализ | кластерного анализа]] и [[наивный байесовский классификатор | наивного байесовского классификатора]].
 
 
 
*''' [http://www.teradata.com/ TERADATA Warehouse Miner 5.3.1]''': принимает от PMML 2.1 до 3.2 для регрессионных моделей, деревьев решений, [[Искусственная нейронная сеть | нейронных сетей]], [[Кластерный анализ | кластерного анализа]] и моделей интеллектуального анализа данных (регрессионного типа).
 
 
 
*''' [http://www.pentaho.com/ Weka (Pentaho)]''': принимает PMML 3.2 для регрессионных моделей, деревьев решений, [[Искусственная нейронная сеть | нейронных сетей]], системы правил и [[Метод опорных векторов | метода опорных векторов]].
 
 
 
* '''[http://www.zementis.com Zementis ADAPA]''': пакетная и немедленная оценка PMML 2.0, 2.1, 3.0, 3.1, 3.2, и 4.0 для нескольких моделей интеллектуального анализа данных, включая модели деревьев решений, [[Association rule|ассоциативных правил]], [[Метод опорных векторов | метода опорных векторов]], [[Искусственная нейронная сеть | нейронных сетей]], [[наивный байесовский классификатор | наивного байесовского классификатора]], системы правил, линейной и[[Логистическая регрессия | логистической регрессии]], а также моделей регресии Кокса (Cox) и [[Кластерный анализ | кластерного анализа]]. ADAPA также принимает все элементы пред- и постобработки PMML, включая преобразования, встроенные функции, выходы и цели.
 
  
* '''[http://www.zementis.com/pmml.htm Zementis PMML Converter]''': проверяет, правит и преобразует файлы PMML версий 2.0, 2.1, 3.0, 3.1, 3.2, и 4.0.
+
== См. также ==
  
* '''[http://www.zementis.com/in-DB-plugin.htm Zementis Universal PMML Plug-in]''': оценка в базе данных для PMML 2.0, 2.1, 3.0, 3.1, 3.2, и 4.0 для нескольких моделей интеллектуального анализа. Доступна в EMC Greenplum Database.
+
* [[Data Mining Group]]
 +
* [[PFA]]
  
===Генератор преобразований===
+
== Примечания ==
PMML предлагает большой набор преобразований данных, в том числе отображение значений, нормализацию и дискретизацию. Он также предлагает несколько встроенных функций, а также арифметические и логические операции, которые могут быть объединены для представления сложных этапов предварительной обработки. С использованием [http://www.zementis.com/PMMLTransformations/PMMLTransformations.html Transformations Generator] можно графически создать преобразование и получить соответствующий код на PMML.
+
{{примечания}}
  
==Ссылки==
+
== Ссылки ==
{{reflist}}
+
* [http://www.dmg.org/index.html Data Mining Group Home]
 +
* [http://www.predictive-analytics.info/2009/04/pmml-data-pre-processing-primer.html Data Pre-processing in PMML and ADAPA — A Primer]
 +
* [http://www.predictive-analytics.info/2009/04/how-do-i-use-pmml-converter.html Information on how to use the PMML Converter]
 +
* [http://www.dmg.org/v3-2/GeneralStructure.html PMML 3.2 Specification]
 +
* [https://archive.today/20090627131013/http://www.dmg.org/v4-0/GeneralStructure.html PMML 4.0 Specification]
 +
* [http://www.analyticbridge.com/group/pmml PMML Discussion Group — Analytic Bridge]
 +
* [http://www.linkedin.com/groupRegistration?gid=2328634 PMML Interest Group — LinkedIn]
 +
* [https://www.amazon.com/dp/1452858268 PMML in Action: A new (first) book on PMML — Available on Amazon.com]
 +
* [http://www.ibm.com/developerworks/industry/library/ind-PMML1/ What is PMML? Explore the power of predictive analytics and open standards] — Статья на сайте IBM developerWorks.
 +
* [http://www.ibm.com/developerworks/industry/library/ind-PMML2/ Representing predictive solutions in PMML: Move from raw data to predictions] — Статья на сайте IBM developerWorks.
  
==Внешние ссылки==
 
*[http://www.dmg.org/index.html Data Mining Group Home]
 
*[http://www.predictive-analytics.info/2009/04/pmml-data-pre-processing-primer.html Data Pre-processing in PMML and ADAPA - A Primer]
 
*[http://www.predictive-analytics.info/2009/04/how-do-i-use-pmml-converter.html Information on how to use the PMML Converter]
 
*[http://www.dmg.org/v3-2/GeneralStructure.html PMML 3.2 Specification]
 
*[http://www.dmg.org/v4-0/GeneralStructure.html PMML 4.0 Specification]
 
*[http://www.analyticbridge.com/group/pmml PMML Discussion Group - Analytic Bridge]
 
*[http://www.linkedin.com/groupRegistration?gid=2328634 PMML Interest Group - LinkedIn]
 
*[http://www.amazon.com/dp/1452858268 PMML in Action: A new (first) book on PMML - Available on Amazon.com]
 
*[http://www.ibm.com/developerworks/industry/library/ind-PMML1/ What is PMML? Explore the power of predictive analytics and open standards] - Статья на сайте IBM developerWorks.
 
*[http://www.ibm.com/developerworks/industry/library/ind-PMML2/ Representing predictive solutions in PMML: Move from raw data to predictions] - Статья на сайте IBM developerWorks.
 
 
[[Категория:Языки разметки]]
 
[[Категория:Языки разметки]]
 
+
[[Категория:Форматы файлов машинного обучения]]
[[de:Predictive Model Markup Language]]
+
[[Категория:Прикладное машинное обучение]]
[[en:Predictive Model Markup Language]]
+
[[Категория:Форматы данных основанные на XML]]
[[es:Predictive Model Markup Language]]
 
[[fr:Predictive Model Markup Language]]
 
{{изолированная статья}}
 

Текущая версия от 15:39, 8 сентября 2025

Язык разметки для прогнозного моделирования (Predictive Model Markup Language — PMML) является языком разметки на основе XML, разработанным Data Mining Group (DMG) и обеспечивающим приложениям способ определения моделей, относящихся к прогнозной аналитике и анализу данных, а также обмен такими моделями между PMML-совместимыми приложениями.

PMML предоставляет приложениям независимый от производителей метод определения модели, поэтому проприетарные проблемы и несовместимости больше не являются препятствием для обмена моделями между приложениями. Он позволяет пользователям разрабатывать модели в приложении одного производителя и использовать приложения других производителей для визуализации, анализа, оценки и иного использования моделей. Ранее это было затруднено, но с PMML обмен моделями между совместимыми приложениями упростился.

Поскольку PMML — это стандарт на основе XML, его спецификация представлена в форме языка описания XML Schema. Более 30 организаций анонсировали продукты, поддерживающие PMML[1].

Компоненты PMML[править | править код]

PMML содержит интуитивно понятную структуру для описания модели анализа данных, будь то искусственная нейронная сеть или логистическая регрессия.

Её можно описать следующей последовательностью компонент[2][3]:

  • Заголовок (Header): содержит общую информацию о документе PMML, например, информацию об авторском праве на модель, её описание, информацию о приложении, использованном для создания модели, например его название и версию. Он также содержит атрибут для временной метки, используемый для определения даты создания модели.
  • Словарь данных (Data Dictionary): содержит определения всех возможных полей, используемых в модели. Именно здесь поле определяется как непрерывное, категориальное или порядковое (атрибут optype). В зависимости от этого определения затем определяются соответствующие диапазоны значений, а также тип данных (например, строка или тип с двойной точностью).
  • Преобразования данных (Data Transformations): преобразования позволяют отобразить пользовательские данные в требуемой форме для использования модели интеллектуального анализа данных. PMML определяет несколько видов простых преобразований данных.
    • Нормализация (Normalization): отображает значения в числа, вход может быть непрерывным или дискретным.
    • Дискретизация (Discretization): отображает непрерывные значения в дискретные значения.
    • Отображение значений (Value mapping): отображает дискретные значения в дискретные значения.
    • Функции (Functions): вычисляет значения путём применения функции к одному или нескольким параметрам.
    • Агрегация (Aggregation): используется для суммирования или сборки группы значений.
  • Модель (Model): содержит определение модели интеллектуального анализа данных. Многослойная искусственная нейронная сеть прямого распространения является наиболее распространенным представлением нейронных сетей в современных приложениях, учитывая популярность и эффективность, связанные с её алгоритмом обучения, известным как метод обратного распространения ошибки. Такая сеть представлена в PMML элементом «NeuralNetwork», содержащим следующие атрибуты:
    • Название модели (атрибут modelName)
    • Название функции (атрибут functionName)
    • Название алгоритма (атрибут algorithmName)
    • Функция активации (атрибут activationFunction)
    • Количество слоев (атрибут numberOfLayers)

За этой информацией следуют три вида нейронных слоёв, которые определяют архитектуру модели нейронной сети, представленной документом PMML. Это атрибуты NeuralInputs, NeuralLayer и NeuralOutputs. Помимо нейронных сетей, PMML позволяет представлять многие другие модели интеллектуального анализа данных, включая метод опорных векторов, ассоциативные правила, наивный байесовский классификатор, модели кластеризации, текстовые модели, деревья принятия решений, а также различные регрессионные модели.

  • Схема анализа (Mining Schema): схема интеллектуального анализа данных содержит список всех полей, используемых в модели. Это может быть подмножество полей, определённое в словаре данных. Она содержит конкретные сведения о каждом поле, такие как:
    • Название (атрибут name): должно ссылаться на поле в словаре данных
    • Тип использования (атрибут usageType): определяет способ использования поля в модели. Стандартные значения: активное, прогнозируемое и дополнительное. Прогнозируемыми являются те поля, значения которых прогнозируются моделью.
    • Обработка выбросов (атрибут outliers): определяет используемый способ обработки выбросов. В PMML выбросы можно рассматривать как отсутствующие значения, как экстремальные значения (на основании определения верхних и нижних значений для той или иной области) или как есть.
    • Правило замены отсутствующих значений (атрибут missingValueReplacement): если этот атрибут указан, то отсутствующее значение автоматически заменяется заданным значением.
    • Обработка отсутствующего значения (атрибут missingValueTreatment): показывает, чем заменяется отсутствующее значение (например, значением, средним или медианой).
  • Цели (Targets): позволяют выполнять пост-обработку прогнозируемого значения в формате масштабирования, если выход модели непрерывен. Цели могут быть также использованы для задач классификации. В этом случае атрибут priorProbability указывает вероятности по умолчанию для соответствующей категории цели. Он используется, если логика прогнозирования не производит результат сама по себе. Это может произойти, например, если входное значение отсутствует, и нет другого способа определить недостающие значения.
  • Выход (Output): этот элемент может быть использован, чтобы указать все требуемые поля вывода, ожидаемые от модели. Это особенности прогнозируемого поля, а также обычно само прогнозируемое значение, вероятность, близость к кластеру (для моделей кластеризации), стандартная ошибка и т. д.

История выпусков[править | править код]

PMML был разработан Робертом Ли Гроссманом, тогдашним директором Национального центра интеллектуального анализа данных (National Center for Data Mining Language) при Иллинойсском университете в Чикаго.

Версия 0.9 - последняя версия, выпущенная лично им[4], последующие велись Data Mining Group[5].

Версия 0.7 Июль 1997
Версия 0.9 Июль 1998
Версия 1.0 Август 1999
Версия 1.1 Август 2000
Версия 2.0 Август 2001
Версия 2.1 Март 2003
Версия 3.0 Октябрь 2004
Версия 3.1 Декабрь 2005
Версия 3.2 Май 2007
Версия 4.0 Июнь 2009
Версия 4.1 Декабрь 2011
Версия 4.2 Февраль 2014
Версия 4.2.1 Март 2015
Версия 4.3 Август 2016
Версия 4.4 Ноябрь 2019

PMML 4.x[править | править код]

Версия PMML, 4.0, была выпущена 16 июня 2009[6][7][8].

Среди новых возможностей:

PMML 4.1 была выпущена 31 декабря 2011[9][10].

В неё были включены следующие усовершенствования:

  • Улучшенные возможности предварительной обработки: В число встроенных функций добавлены ряд булевых операций и функция If-Then-Else;
  • Модели временных рядов: Новые модели экспоненциального сглаживания; а также плэйсхолдеры для ARIMA, разложения сезонных трендов и оценки спектральной плотности, поддержка которых планируется в ближайшем будущем;
  • Описание модели: Сохранение результатов оценки и показателей эффективности модели в самом файле PMML;
  • Множественные модели: Возможности композиции моделей, ансамблей и сегментации (например, объединение регрессии и деревьев решений);
  • Расширения существующих элементов: Добавление многоклассовой классификации для метода опорных векторов, улучшенное представление правил ассоциации и добавление моделей регрессии Кокса.

PMML 4.2 была выпущена 28 февраля 2014[11][12].

Новые функции включают:

  • Преобразования: новые элементы для реализации интеллектуального анализа текста
  • Новые встроенные функции для реализации регулярных выражений: сопоставление, объединение и замена
  • Упрощенные выходные данные для постобработки
  • Улучшения элементов оценочной карты и наивной байесовской модели

PMML 4.3 была выпущена 23 августа 2016[13][14].

Среди новых возможностей:

  • Новые типы моделей:
    • Gaussian Process
    • Байесова сеть
  • новые встроенные функции
  • уточнение формулировок и доработки в документации

PMML 4.4 была выпущена 27 ноября 2019[15][16].

Продукты, поддерживающие PMML[править | править код]

Спектр программных продуктов, предлагаемых для создания и использования PMML:

Генератор преобразований[править | править код]

PMML предлагает большой набор преобразований данных, в том числе отображение значений, нормализацию и дискретизацию. Он также предлагает несколько встроенных функций, а также арифметические и логические операции, которые могут быть объединены для представления сложных этапов предварительной обработки. С использованием Transformations Generator можно графически создать преобразование и получить соответствующий код на PMML.

См. также[править | править код]

Примечания[править | править код]

  1. PMML Powered. Data Mining Group. Дата обращения: 14 декабря 2017.
  2. A. Guazzelli, M. Zeller, W. Chen, and G. Williams. PMML: An Open Standard for Sharing Models Архивная копия от 23 ноября 2009 на Wayback Machine. The R Journal, Volume 1/1, May 2009.
  3. A. Guazzelli, W. Lin, T. Jena (2010). PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics Архивная копия от 18 июня 2022 на Wayback Machine. CreateSpace.
  4. The management and mining of multiple predictive models using the predictive modeling markup language. ResearchGate. doi:10.1016/S0950-5849(99)00022-1. Дата обращения: 21 декабря 2015.
  5. Data Mining Group. — «The DMG is proud to host the working groups that develop the Predictive Model Markup Language (PMML) and the Portable Format for Analytics (PFA), two complementary standards that simplify the deployment of analytic models.» Дата обращения: 14 декабря 2017.
  6. Data Mining Group website | PMML 4.0 — Changes from PMML 3.2 Архивировано 28 июля 2012 года.
  7. Zementis website | PMML 4.0 is here! Дата обращения: 2 сентября 2011. Архивировано из оригинала 3 октября 2011 года.
  8. R. Pechter. What’s PMML and What’s New in PMML 4.0? Архивная копия от 6 октября 2011 на Wayback Machine The ACM SIGKDD Explorations Newsletter, Volume 11/1, July 2009.
  9. Data Mining Group website | PMML 4.1 - Changes from PMML 4.0. Дата обращения: 24 октября 2017. Архивировано 25 октября 2017 года.
  10. Predictive Analytics Info website | PMML 4.1 is here! Дата обращения: 24 октября 2017. Архивировано 25 октября 2017 года.
  11. Data Mining Group website | PMML 4.2 - Changes from PMML 4.1 Архивировано 20 мая 2014 года.
  12. Predictive Analytics Info website | PMML 4.2 is here! Дата обращения: 24 октября 2017. Архивировано 25 октября 2017 года.
  13. Data Mining Group website | PMML 4.3 - Changes from PMML 4.2.1. Дата обращения: 24 октября 2017. Архивировано 28 июня 2017 года.
  14. Predictive Model Markup Language product website | Project activity. Дата обращения: 24 октября 2017. Архивировано 12 июня 2018 года.
  15. The Data Mining Group releases Predictive Model Markup Language v4.4. Дата обращения: 19 января 2023. Архивировано 19 января 2023 года.
  16. PMML 4.4.1 - General Structure. Data Mining Group. Дата обращения: 12 июля 2021.

Ссылки[править | править код]