Parquet: различия между версиями

Материал из in.wiki
Перейти к навигации Перейти к поиску
м (Wikitraditio переименовал страницу Apache Parquet в Parquet)
 
(не показано 5 промежуточных версий этого же участника)
Строка 1: Строка 1:
 
{{Болванка}}
 
{{Болванка}}
'''Apache Parquet''' — это бесплатный и открытый формат [[Колоночное хранение данных|хранения колоночных данны]]<nowiki/>х в экосистеме [[Apache Hadoop]]. Он похож на [[RCFile]] и [[ORC]], другие форматы файлов колоночного хранения в [[Hadoop]], и совместим с большинством фреймворков обработки данных вокруг Hadoop. Он обеспечивает эффективные [[Сжатие данных|схемы сжатия]] и [[Кодирование данных|кодирования данных]] с повышенной производительностью для обработки сложных данных в больших объемах.
+
{{Infobox software
 +
| name = Apache Parquet
 +
| logo = Apache Parquet logo.svg
 +
| screenshot =
 +
| caption = Apache Parquet
 +
| developer =
 +
| released = {{Start date and age|2013|03|13|df=yes}} <!-- https://web.archive.org/web/20130504133255/http://blog.cloudera.com/blog/2013/03/introducing-parquet-columnar-storage-for-apache-hadoop/ -->
 +
| latest release version = 2.9.0
 +
| latest release date = {{Start date and age|2021|10|06|df=yes}}<ref>{{cite web |url=https://parquet.apache.org/blog/ |title=Apache Parquet – Releases |website=Apache.org |access-date=22 February 2023 |archive-date=22 February 2023 |archive-url=https://web.archive.org/web/20230222213151/https://parquet.apache.org/blog/ |url-status=live }}</ref>
 +
<!-- This is a comment block.
 +
    Before the version was referring to Parquet-MR, an implementation of the Parquet format:
 +
| latest release version = 1.11.0<ref>{{cite web|title=Github releases|url=https://github.com/apache/parquet-mr/releases}}</ref>
 +
| latest release date = {{Start date and age|2019|03|19|df=yes}}
 +
-->| latest preview version =
 +
| latest preview date =
 +
| operating system = [[Cross-platform]]
 +
| programming language = [[Java (programming language)|Java]] (reference implementation)<ref>{{cite web|url=https://github.com/apache/parquet-mr|title=Parquet-MR source code|website=[[GitHub]]|access-date=2 July 2019|archive-date=11 June 2018|archive-url=https://web.archive.org/web/20180611015409/https://github.com/apache/parquet-mr|url-status=live}}</ref>
 +
| genre = [[Column-oriented DBMS]]
 +
| license = [[Apache License 2.0]]
 +
| website = {{URL|https://parquet.apache.org}}
 +
}}
 +
'''Apache Parquet''' — это бесплатный и открытый [[формат хранения данных|формат]] [[Колоночное хранение данных|хранения колоночных данных]] в экосистеме [[Apache Hadoop]]. Он похож на [[RCFile]] и [[ORC]], другие форматы файлов колоночного хранения в [[Hadoop]], и совместим с большинством фреймворков обработки данных вокруг Hadoop. Он обеспечивает эффективные [[Сжатие данных|схемы сжатия]] и [[Кодирование данных|кодирования данных]] с повышенной производительностью для обработки сложных данных в больших объемах.
 +
 
 +
== История ==
 +
Проект с открытым исходным кодом по созданию Apache Parquet начался как совместный проект [[Twitter]]<ref>{{cite web|url=https://blog.twitter.com/2013/announcing-parquet-10-columnar-storage-for-hadoop|title=Release Date|access-date=2016-09-12|archive-date=2016-10-20|archive-url=https://web.archive.org/web/20161020154829/https://blog.twitter.com/2013/announcing-parquet-10-columnar-storage-for-hadoop|url-status=live}}</ref> и Cloudera<ref>{{Cite web|url=http://blog.cloudera.com/blog/2013/03/introducing-parquet-columnar-storage-for-apache-hadoop/|archive-url=https://web.archive.org/web/20130504133255/http://blog.cloudera.com/blog/2013/03/introducing-parquet-columnar-storage-for-apache-hadoop/|url-status=dead|archive-date=2013-05-04|title=Introducing Parquet: Efficient Columnar Storage for Apache Hadoop - Cloudera Engineering Blog|date=2013-03-13|access-date=2018-10-22}}</ref>.
 +
 
 +
Parquet был разработан как улучшение колоночного формата хранения данных [[Trevni]], созданного [[Каттинг, Дуглас|Дугом Каттингом]], создателем Hadoop.
 +
 
 +
Первая версия, Apache Parquet{{nbsp}}1.0, была выпущена в июле 2013 года. С 27 апреля 2015 года Apache Parquet является [[Проекты верхнего уровня Apache Software Foundation|проектом верхнего уровня]], спонсируемым A[[pache Software Foundation]] (ASF).<ref>{{Cite web|url = http://www.infoworld.com/article/2915565/big-data/apache-parquet-paves-the-way-towards-better-hadoop-data-storage.html|title = Apache Parquet paves the way for better Hadoop data storage|date = 28 April 2015|access-date = 21 May 2017|archive-date = 31 May 2017|archive-url = https://web.archive.org/web/20170531130443/http://www.infoworld.com/article/2915565/big-data/apache-parquet-paves-the-way-towards-better-hadoop-data-storage.html|url-status = live}}</ref><ref>{{Cite web|url=https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces75|title=The Apache Software Foundation Announces Apache™ Parquet™ as a Top-Level Project : The Apache Software Foundation Blog|date=27 April 2015|access-date=21 May 2017|archive-date=20 August 2017|archive-url=https://web.archive.org/web/20170820074502/https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces75|url-status=live}}</ref>.
 +
 
 +
== Примечания ==
 +
{{Примечания}}

Текущая версия от 01:41, 25 сентября 2024

800px-T64 and pencil.jpg Это незавершённая статья.
Вы можете помочь проекту, исправив и дополнив её.
Apache Parquet logo.svg
Apache Parquet
Язык программирования:
Java (reference implementation)[1] и Java (reference implementation)[1]
Операционная система:
Cross-platform






Дата появления:
13 март 2013; 12 years ago (2013-03-13)
Текущая версия:
2.9.0
Дата выхода текущей версии:
6 октябрь 2021; 3 years ago (2021-10-06)[2]



Лицензия:
Apache License 2.0

Apache Parquet — это бесплатный и открытый формат хранения колоночных данных в экосистеме Apache Hadoop. Он похож на RCFile и ORC, другие форматы файлов колоночного хранения в Hadoop, и совместим с большинством фреймворков обработки данных вокруг Hadoop. Он обеспечивает эффективные схемы сжатия и кодирования данных с повышенной производительностью для обработки сложных данных в больших объемах.

История[править | править код]

Проект с открытым исходным кодом по созданию Apache Parquet начался как совместный проект Twitter[3] и Cloudera[4].

Parquet был разработан как улучшение колоночного формата хранения данных Trevni, созданного Дугом Каттингом, создателем Hadoop.

Первая версия, Apache Parquet 1.0, была выпущена в июле 2013 года. С 27 апреля 2015 года Apache Parquet является проектом верхнего уровня, спонсируемым Apache Software Foundation (ASF).[5][6].

Примечания[править | править код]

  1. Parquet-MR source code. GitHub. Дата обращения: 2 июля 2019. Архивировано 11 июня 2018 года.
  2. Apache Parquet – Releases. Apache.org. Дата обращения: 22 февраля 2023. Архивировано 22 февраля 2023 года.
  3. Release Date. Дата обращения: 12 сентября 2016. Архивировано 20 октября 2016 года.
  4. Introducing Parquet: Efficient Columnar Storage for Apache Hadoop - Cloudera Engineering Blog (13 марта 2013). Дата обращения: 22 октября 2018. Архивировано из оригинала 4 мая 2013 года.
  5. Apache Parquet paves the way for better Hadoop data storage (28 апреля 2015). Дата обращения: 21 мая 2017. Архивировано 31 мая 2017 года.
  6. The Apache Software Foundation Announces Apache™ Parquet™ as a Top-Level Project : The Apache Software Foundation Blog (27 апреля 2015). Дата обращения: 21 мая 2017. Архивировано 20 августа 2017 года.