猪和蜂巢的区别?为什么两者都有?

我的背景——在Hadoop世界工作了4周。使用Cloudera的Hadoop VM对Hive, Pig和Hadoop进行了一些尝试。已阅读谷歌关于Map-Reduce和GFS的论文(PDF链接)。

我明白——

猪的语言猪的拉丁语是一种转变来自(适合程序员的思维方式) SQL喜欢声明式的编程和Hive的查询语言密切相关类似于SQL。 Pig位于Hadoop之上原则也可以凌驾于之上德律阿得斯。我可能错了，但蜂巢错了与Hadoop紧密耦合。都是Pig Latin和Hive命令编译映射和减少作业。

我的问题是——当一个(比如猪)可以达到目的时，拥有两者的目标是什么?难道只是因为雅虎宣传了Pig !和Facebook的Hive ?

当前回答

从链接: http://www.aptibook.com/discuss-technical?uid=tech-hive4&question=What-kind-of-datawarehouse-application-is-suitable-for-Hive?

Hive不是一个完整的数据库。Hadoop和HDFS的设计约束和局限性限制了Hive的功能。

Hive最适合数据仓库应用，其中

1)分析相对静态的数据，

2)不需要快速响应时间，并且

3)当数据变化不迅速时。

Hive没有提供OLTP(在线事务处理)所需的关键特性。它更接近于OLAP工具，在线分析处理。因此，Hive最适合数据仓库应用程序，其中维护和挖掘大型数据集以获得见解、报告等。

2013-09-29 06:00:25

其他回答

您可以通过pig/hive查询实现类似的结果。主要的区别在于理解/编写/创建查询的方法。

Pig倾向于创建数据流:在每个步骤中进行一些处理的小步骤 Hive提供了类似SQL的语言来操作数据，因此从RDBMS转换更容易(Pig对于没有SQL经验的人来说更容易)

同样值得注意的是，对于Hive来说，你可以很好的界面来处理这些数据(Beeswax for HUE，或Hive web界面)，它还为你提供了关于你的数据的信息(模式等)的亚metastore，这是关于你的数据的一个有用的中心信息。

我同时使用Hive和Pig，用于不同的查询(我使用它可以更快/更容易地编写查询，我这样做主要是临时查询)-它们可以使用相同的数据作为输入。但目前我的大部分工作都是通过Beeswax完成的。

2010-07-28 20:27:20

一般来说，Pig对于ETL类型的工作负载很有用。例如，您每天需要对数据进行的一组转换。

当你需要运行特别的查询或只是想要探索数据时，Hive就会发挥作用。它有时可以作为可视化层(Tableau/Qlikview)的接口。

两者都是必不可少的，但目的不同。

2015-11-13 20:06:14

我相信你的问题的真正答案是，它们是/是独立的项目，没有集中协调的目标。他们在早期处于不同的空间，随着两个项目的扩展，随着时间的推移逐渐重叠。

摘自Hadoop O'Reilly的书:

Pig:一种数据流语言探索环境非常大数据集。 Hive:分布式数据仓库

2010-07-28 19:08:16

看看“dezyre”文章中关于猪和蜂巢的坚果壳比较

Hive在分区、服务器、Web接口和JDBC/ODBC支持方面优于PIG。

一些差异:

Hive is best for structured Data & PIG is best for semi structured data Hive is used for reporting & PIG for programming Hive is used as a declarative SQL & PIG as a procedural language Hive supports partitions & PIG does not Hive can start an optional thrift based server & PIG cannot Hive defines tables beforehand (schema) + stores schema information in a database & PIG doesn't have a dedicated metadata of database Hive does not support Avro but PIG does. EDIT: Hive supports Avro, specify the serde as org.apache.hadoop.hive.serde2.avro Pig also supports additional COGROUP feature for performing outer joins but hive does not. But both Hive & PIG can join, order & sort dynamically.

2015-10-26 18:45:56

我发现这个是最有帮助的(尽管它已经有一年的历史了)——http://yahoohadoop.tumblr.com/post/98256601751/pig-and-hive-at-yahoo

它特别谈到了Pig vs Hive，以及他们在雅虎的工作时间和地点。我发现这很有见地。一些有趣的笔记:

关于数据集的增量更改/更新:

方法来连接新的增量数据并使用结果与以前的结果完全连接在一起就是正确的方法。这只需要几分钟。标准数据库操作可以以这种增量的方式在Pig Latin中实现，这使得Pig成为这个用例的好工具。

关于通过流媒体使用其他工具:

猪与流媒体的集成也使研究人员很容易使用他们已经调试过的Perl或Python脚本数据集，并在一个巨大的数据集上运行。

关于使用Hive进行数据仓库:

In both cases, the relational model and SQL are the best fit. Indeed, data warehousing has been one of the core use cases for SQL through much of its history. It has the right constructs to support the types of queries and tools that analysts want to use. And it is already in use by both the tools and users in the field. The Hadoop subproject Hive provides a SQL interface and relational model for Hadoop. The Hive team has begun work to integrate with BI tools via interfaces such as ODBC.

2011-11-22 20:04:31

猪和蜂巢的区别?为什么两者都有?

推荐文章

最新文章

标签