猪和蜂巢的区别?为什么两者都有?

我的背景——在Hadoop世界工作了4周。使用Cloudera的Hadoop VM对Hive, Pig和Hadoop进行了一些尝试。已阅读谷歌关于Map-Reduce和GFS的论文(PDF链接)。

我明白——

猪的语言猪的拉丁语是一种转变来自(适合程序员的思维方式) SQL喜欢声明式的编程和Hive的查询语言密切相关类似于SQL。 Pig位于Hadoop之上原则也可以凌驾于之上德律阿得斯。我可能错了，但蜂巢错了与Hadoop紧密耦合。都是Pig Latin和Hive命令编译映射和减少作业。

我的问题是——当一个(比如猪)可以达到目的时，拥有两者的目标是什么?难道只是因为雅虎宣传了Pig !和Facebook的Hive ?

当前回答

简而言之，要对两者进行一个非常高水平的概述:

1) Pig是hadoop上的关系代数

2) Hive是一个SQL over hadoop(比Pig高一级)

2014-10-04 07:56:05

其他回答

有什么是HIVE可以做到的，而PIG做不到的?

分区可以使用HIVE完成，但不能在PIG中完成，这是一种绕过输出的方式。

什么是PIG可以做的，而在HIVE中是不可能的?

位置引用-即使你没有字段名，我们也可以使用像$0这样的位置来引用第一个字段，$1用于第二个字段，等等。

另一个基本区别是，PIG不需要一个模式来写值，但HIVE需要一个模式。

您可以使用JDBC和其他方法从任何外部应用程序连接到HIVE，但不能使用PIG。

注意:两者都运行在HDFS (hadoop分布式文件系统)上，语句被转换为Map Reduce程序。

2015-03-29 04:32:59

简单来说，Pig是一个高级平台，用于创建与Hadoop一起使用的MapReduce程序，使用Pig脚本我们将把大量数据处理成所需的格式。

一旦得到处理后的数据，这些处理后的数据就会保存在HDFS中，以便后续处理以获得所需的结果。

在存储的处理数据之上，我们将应用HIVE SQL命令来获得所需的结果，在内部这个HIVE SQL命令运行MAP Reduce程序。

2014-01-07 01:56:01

看看“dezyre”文章中关于猪和蜂巢的坚果壳比较

Hive在分区、服务器、Web接口和JDBC/ODBC支持方面优于PIG。

一些差异:

Hive is best for structured Data & PIG is best for semi structured data Hive is used for reporting & PIG for programming Hive is used as a declarative SQL & PIG as a procedural language Hive supports partitions & PIG does not Hive can start an optional thrift based server & PIG cannot Hive defines tables beforehand (schema) + stores schema information in a database & PIG doesn't have a dedicated metadata of database Hive does not support Avro but PIG does. EDIT: Hive supports Avro, specify the serde as org.apache.hadoop.hive.serde2.avro Pig also supports additional COGROUP feature for performing outer joins but hive does not. But both Hive & PIG can join, order & sort dynamically.

2015-10-26 18:45:56

我发现这个是最有帮助的(尽管它已经有一年的历史了)——http://yahoohadoop.tumblr.com/post/98256601751/pig-and-hive-at-yahoo

它特别谈到了Pig vs Hive，以及他们在雅虎的工作时间和地点。我发现这很有见地。一些有趣的笔记:

关于数据集的增量更改/更新:

方法来连接新的增量数据并使用结果与以前的结果完全连接在一起就是正确的方法。这只需要几分钟。标准数据库操作可以以这种增量的方式在Pig Latin中实现，这使得Pig成为这个用例的好工具。

关于通过流媒体使用其他工具:

猪与流媒体的集成也使研究人员很容易使用他们已经调试过的Perl或Python脚本数据集，并在一个巨大的数据集上运行。

关于使用Hive进行数据仓库:

In both cases, the relational model and SQL are the best fit. Indeed, data warehousing has been one of the core use cases for SQL through much of its history. It has the right constructs to support the types of queries and tools that analysts want to use. And it is already in use by both the tools and users in the field. The Hadoop subproject Hive provides a SQL interface and relational model for Hadoop. The Hive team has begun work to integrate with BI tools via interfaces such as ODBC.

2011-11-22 20:04:31

我相信你的问题的真正答案是，它们是/是独立的项目，没有集中协调的目标。他们在早期处于不同的空间，随着两个项目的扩展，随着时间的推移逐渐重叠。

摘自Hadoop O'Reilly的书:

Pig:一种数据流语言探索环境非常大数据集。 Hive:分布式数据仓库

2010-07-28 19:08:16

猪和蜂巢的区别?为什么两者都有?

推荐文章

最新文章

标签