猪和蜂巢的区别?为什么两者都有?

我的背景——在Hadoop世界工作了4周。使用Cloudera的Hadoop VM对Hive, Pig和Hadoop进行了一些尝试。已阅读谷歌关于Map-Reduce和GFS的论文(PDF链接)。

我明白——

猪的语言猪的拉丁语是一种转变来自(适合程序员的思维方式) SQL喜欢声明式的编程和Hive的查询语言密切相关类似于SQL。 Pig位于Hadoop之上原则也可以凌驾于之上德律阿得斯。我可能错了，但蜂巢错了与Hadoop紧密耦合。都是Pig Latin和Hive命令编译映射和减少作业。

我的问题是——当一个(比如猪)可以达到目的时，拥有两者的目标是什么?难道只是因为雅虎宣传了Pig !和Facebook的Hive ?

当前回答

猪什么都吃!这意味着它可以使用非结构化数据。

Hive需要一个模式。

2015-02-20 17:55:36

其他回答

有什么是HIVE可以做到的，而PIG做不到的?

分区可以使用HIVE完成，但不能在PIG中完成，这是一种绕过输出的方式。

什么是PIG可以做的，而在HIVE中是不可能的?

位置引用-即使你没有字段名，我们也可以使用像$0这样的位置来引用第一个字段，$1用于第二个字段，等等。

另一个基本区别是，PIG不需要一个模式来写值，但HIVE需要一个模式。

您可以使用JDBC和其他方法从任何外部应用程序连接到HIVE，但不能使用PIG。

注意:两者都运行在HDFS (hadoop分布式文件系统)上，语句被转换为Map Reduce程序。

2015-03-29 04:32:59

我相信你的问题的真正答案是，它们是/是独立的项目，没有集中协调的目标。他们在早期处于不同的空间，随着两个项目的扩展，随着时间的推移逐渐重叠。

摘自Hadoop O'Reilly的书:

Pig:一种数据流语言探索环境非常大数据集。 Hive:分布式数据仓库

2010-07-28 19:08:16

Hive的设计是为了吸引一个熟悉SQL的社区。它的哲学是我们不需要另一种脚本语言。Hive支持用户选择语言的map和reduce转换脚本(可以嵌入到SQL子句中)。它在Facebook上被熟悉SQL的分析人员以及使用Python编程的数据挖掘人员广泛使用。在Pig中SQL兼容性的努力已经被放弃了，所以这两个项目之间的区别是非常明显的。

支持SQL语法也意味着它可以与现有的BI工具(如Microstrategy)集成。Hive有一个ODBC/JDBC驱动程序(这是一个正在进行的工作)，应该可以在不久的将来实现这一点。它还开始添加对索引的支持，这应该允许支持在这种环境中常见的向下钻取查询。

最后——这与问题无关——Hive是一个执行分析查询的框架。虽然它的主要用途是查询平面文件，但它没有理由不能查询其他存储。目前，Hive可以用于查询存储在Hbase中的数据(它是一个键值存储，就像大多数RDBMS内部的键值存储一样)，HadoopDB项目已经使用Hive来查询联邦RDBMS层。

2010-08-05 07:23:47

从链接: http://www.aptibook.com/discuss-technical?uid=tech-hive4&question=What-kind-of-datawarehouse-application-is-suitable-for-Hive?

Hive不是一个完整的数据库。Hadoop和HDFS的设计约束和局限性限制了Hive的功能。

Hive最适合数据仓库应用，其中

1)分析相对静态的数据，

2)不需要快速响应时间，并且

3)当数据变化不迅速时。

Hive没有提供OLTP(在线事务处理)所需的关键特性。它更接近于OLAP工具，在线分析处理。因此，Hive最适合数据仓库应用程序，其中维护和挖掘大型数据集以获得见解、报告等。

2013-09-29 06:00:25

一般来说，Pig对于ETL类型的工作负载很有用。例如，您每天需要对数据进行的一组转换。

当你需要运行特别的查询或只是想要探索数据时，Hive就会发挥作用。它有时可以作为可视化层(Tableau/Qlikview)的接口。

两者都是必不可少的，但目的不同。

2015-11-13 20:06:14

猪和蜂巢的区别?为什么两者都有?

推荐文章

最新文章

标签