猪和蜂巢的区别?为什么两者都有?

我的背景——在Hadoop世界工作了4周。使用Cloudera的Hadoop VM对Hive, Pig和Hadoop进行了一些尝试。已阅读谷歌关于Map-Reduce和GFS的论文(PDF链接)。

我明白——

猪的语言猪的拉丁语是一种转变来自(适合程序员的思维方式) SQL喜欢声明式的编程和Hive的查询语言密切相关类似于SQL。 Pig位于Hadoop之上原则也可以凌驾于之上德律阿得斯。我可能错了，但蜂巢错了与Hadoop紧密耦合。都是Pig Latin和Hive命令编译映射和减少作业。

我的问题是——当一个(比如猪)可以达到目的时，拥有两者的目标是什么?难道只是因为雅虎宣传了Pig !和Facebook的Hive ?

当前回答

Pig-latin is data flow style, is more suitable for software engineer. While sql is more suitable for analytics person who are get used to sql. For complex task, for hive you have to manually to create temporary table to store intermediate data, but it is not necessary for pig. Pig-latin is suitable for complicated data structure( like small graph). There's a data structure in pig called DataBag which is a collection of Tuple. Sometimes you need to calculate metrics which involve multiple tuples ( there's a hidden link between tuples, in this case I would call it graph). In this case, it is very easy to write a UDF to calculate the metrics which involve multiple tuples. Of course it could be done in hive, but it is not so convenient as it is in pig. Writing UDF in pig much is easier than in Hive in my opinion. Pig has no metadata support, (or it is optional, in future it may integrate hcatalog). Hive has tables' metadata stored in database. You can debug pig script in local environment, but it would be hard for hive to do that. The reason is point 3. You need to set up hive metadata in your local environment, very time consuming.

2013-07-15 23:37:30

其他回答

Hive的设计是为了吸引一个熟悉SQL的社区。它的哲学是我们不需要另一种脚本语言。Hive支持用户选择语言的map和reduce转换脚本(可以嵌入到SQL子句中)。它在Facebook上被熟悉SQL的分析人员以及使用Python编程的数据挖掘人员广泛使用。在Pig中SQL兼容性的努力已经被放弃了，所以这两个项目之间的区别是非常明显的。

支持SQL语法也意味着它可以与现有的BI工具(如Microstrategy)集成。Hive有一个ODBC/JDBC驱动程序(这是一个正在进行的工作)，应该可以在不久的将来实现这一点。它还开始添加对索引的支持，这应该允许支持在这种环境中常见的向下钻取查询。

最后——这与问题无关——Hive是一个执行分析查询的框架。虽然它的主要用途是查询平面文件，但它没有理由不能查询其他存储。目前，Hive可以用于查询存储在Hbase中的数据(它是一个键值存储，就像大多数RDBMS内部的键值存储一样)，HadoopDB项目已经使用Hive来查询联邦RDBMS层。

2010-08-05 07:23:47

我相信你的问题的真正答案是，它们是/是独立的项目，没有集中协调的目标。他们在早期处于不同的空间，随着两个项目的扩展，随着时间的推移逐渐重叠。

摘自Hadoop O'Reilly的书:

Pig:一种数据流语言探索环境非常大数据集。 Hive:分布式数据仓库

2010-07-28 19:08:16

简单来说，Pig是一个高级平台，用于创建与Hadoop一起使用的MapReduce程序，使用Pig脚本我们将把大量数据处理成所需的格式。

一旦得到处理后的数据，这些处理后的数据就会保存在HDFS中，以便后续处理以获得所需的结果。

在存储的处理数据之上，我们将应用HIVE SQL命令来获得所需的结果，在内部这个HIVE SQL命令运行MAP Reduce程序。

2014-01-07 01:56:01

您可以通过pig/hive查询实现类似的结果。主要的区别在于理解/编写/创建查询的方法。

Pig倾向于创建数据流:在每个步骤中进行一些处理的小步骤 Hive提供了类似SQL的语言来操作数据，因此从RDBMS转换更容易(Pig对于没有SQL经验的人来说更容易)

同样值得注意的是，对于Hive来说，你可以很好的界面来处理这些数据(Beeswax for HUE，或Hive web界面)，它还为你提供了关于你的数据的信息(模式等)的亚metastore，这是关于你的数据的一个有用的中心信息。

我同时使用Hive和Pig，用于不同的查询(我使用它可以更快/更容易地编写查询，我这样做主要是临时查询)-它们可以使用相同的数据作为输入。但目前我的大部分工作都是通过Beeswax完成的。

2010-07-28 20:27:20

〇蜂巢Vs猪

Hive是一个SQL接口，允许SQL精明的用户或其他工具，如Tableu/Microstrategy/任何其他工具或语言，有SQL接口。

PIG更像是一个ETL管道，有一步一步的命令，比如声明变量、循环、迭代、条件语句等。

当我想编写复杂的分步逻辑时，我更喜欢编写Pig脚本而不是hive QL。当我很舒服地写一个sql拉数据我想我使用Hive。对于hive，你需要在查询之前定义表(就像你在RDBMS中做的那样)

两者的目的不同，但在引子下，两者都做相同的，转换为映射减少程序。此外，Apache开源社区正在为这两个项目添加越来越多的特性

2015-12-24 17:55:30

猪和蜂巢的区别?为什么两者都有?

推荐文章

最新文章

标签