Hive е система за съхранение на данни, която се използва за анализ на структурирани данни. Той е изграден на върха на Hadoop. Разработен е от Facebook.
Hive предоставя функционалността за четене, писане и управление на големи набори от данни, намиращи се в разпределено хранилище. Той изпълнява SQL подобни заявки, наречени HQL (Hive query language), които се преобразуват вътрешно в задания на MapReduce.
java tostring
Използвайки Hive, можем да пропуснем изискването на традиционния подход за писане на сложни програми MapReduce. Hive поддържа език за дефиниране на данни (DDL), език за манипулиране на данни (DML) и дефинирани от потребителя функции (UDF).
Характеристики на Hive
Това са следните функции на Hive:
- Hive е бърз и мащабируем.
- Той предоставя подобни на SQL заявки (т.е. HQL), които имплицитно се трансформират в задания на MapReduce или Spark.
- Той е способен да анализира големи набори от данни, съхранявани в HDFS.
- Той позволява различни типове съхранение като обикновен текст, RCFile и HBase.
- Той използва индексиране за ускоряване на заявките.
- Може да работи с компресирани данни, съхранявани в екосистемата Hadoop.
- Той поддържа дефинирани от потребителя функции (UDF), където потребителят може да предостави неговата функционалност.
Ограничения на Hive
- Hive не може да обработва данни в реално време.
- Не е предназначен за обработка на онлайн транзакции.
- Hive заявките съдържат голямо забавяне.
Разлики между Кошер и Прасе
Кошер | прасе |
---|---|
Hive обикновено се използва от анализатори на данни. | Pig обикновено се използва от програмисти. |
Той следва SQL-подобни заявки. | Той следва езика на потока от данни. |
Може да обработва структурирани данни. | Може да обработва полуструктурирани данни. |
Работи от страната на сървъра на HDFS клъстера. | Работи от страна на клиента на HDFS клъстер. |
Hive е по-бавен от Pig. | Pig е сравнително по-бърз от Hive. |