Parquet: различия между версиями

Материал из in.wiki
Перейти к навигации Перейти к поиску
Строка 21: Строка 21:
 
| website = {{URL|https://parquet.apache.org}}
 
| website = {{URL|https://parquet.apache.org}}
 
}}
 
}}
'''Apache Parquet''' — это бесплатный и открытый [[формат хранения данных|формат]] [[Колоночное хранение данных|хранения колоночных данны]]<nowiki/>х в экосистеме [[Apache Hadoop]]. Он похож на [[RCFile]] и [[ORC]], другие форматы файлов колоночного хранения в [[Hadoop]], и совместим с большинством фреймворков обработки данных вокруг Hadoop. Он обеспечивает эффективные [[Сжатие данных|схемы сжатия]] и [[Кодирование данных|кодирования данных]] с повышенной производительностью для обработки сложных данных в больших объемах.
+
'''Apache Parquet''' — это бесплатный и открытый [[формат хранения данных|формат]] [[Колоночное хранение данных|хранения колоночных данных]] в экосистеме [[Apache Hadoop]]. Он похож на [[RCFile]] и [[ORC]], другие форматы файлов колоночного хранения в [[Hadoop]], и совместим с большинством фреймворков обработки данных вокруг Hadoop. Он обеспечивает эффективные [[Сжатие данных|схемы сжатия]] и [[Кодирование данных|кодирования данных]] с повышенной производительностью для обработки сложных данных в больших объемах.
 +
 
 +
== История ==
 +
Проект с открытым исходным кодом по созданию Apache Parquet начался как совместный проект [[Twitter]] и Cloudera.
 +
 
 +
Parquet был разработан как улучшение колоночного формата хранения данных [[Trevni]], созданного [[Каттинг, Дуглас|Дугом Каттингом]], создателем Hadoop.
 +
 
 +
Первая версия, Apache Parquet 1.0, была выпущена в июле 2013 года. С 27 апреля 2015 года Apache Parquet является [[Проекты верхнего уровня Apache Software Foundation|проектом верхнего уровня]], спонсируемым A[[pache Software Foundation]] (ASF).
  
 
== Примечания ==
 
== Примечания ==
 
{{Примечания}}
 
{{Примечания}}

Версия от 01:11, 25 сентября 2024

800px-T64 and pencil.jpg Это незавершённая статья.
Вы можете помочь проекту, исправив и дополнив её.
Apache Parquet logo.svg
Apache Parquet
Язык программирования:
Java (reference implementation)[1] и Java (reference implementation)[1]
Операционная система:
Cross-platform






Дата появления:
13 март 2013; 12 years ago (2013-03-13)
Текущая версия:
2.9.0
Дата выхода текущей версии:
6 октябрь 2021; 3 years ago (2021-10-06)[2]



Лицензия:
Apache License 2.0

Apache Parquet — это бесплатный и открытый формат хранения колоночных данных в экосистеме Apache Hadoop. Он похож на RCFile и ORC, другие форматы файлов колоночного хранения в Hadoop, и совместим с большинством фреймворков обработки данных вокруг Hadoop. Он обеспечивает эффективные схемы сжатия и кодирования данных с повышенной производительностью для обработки сложных данных в больших объемах.

История

Проект с открытым исходным кодом по созданию Apache Parquet начался как совместный проект Twitter и Cloudera.

Parquet был разработан как улучшение колоночного формата хранения данных Trevni, созданного Дугом Каттингом, создателем Hadoop.

Первая версия, Apache Parquet 1.0, была выпущена в июле 2013 года. С 27 апреля 2015 года Apache Parquet является проектом верхнего уровня, спонсируемым Apache Software Foundation (ASF).

Примечания

  1. Parquet-MR source code. GitHub. Дата обращения: 2 июля 2019. Архивировано 11 июня 2018 года.
  2. Apache Parquet – Releases. Apache.org. Дата обращения: 22 февраля 2023. Архивировано 22 февраля 2023 года.