当我试图理解CAP中的“Availability”(A)和“Partition tolerance”(P)时,我发现很难理解各种文章的解释。

我有一种感觉,a和P可以同时出现(我知道事实并非如此,这就是我不能理解的原因!)

简单地解释一下,什么是A和P以及它们之间的区别?


当前回答

一致性:

对于给定的客户端,读操作保证返回最近的写操作(如ACID)。如果在此期间有任何请求,则必须等待节点之间/节点内的数据同步完成。


可用性:

每个节点(如果没有失败)总是执行查询,并且应该总是响应请求。它是否返回最新的副本并不重要。


Partition-tolerance:

当发生网络分区时,系统将继续工作。


关于AP,可用性(始终可访问)可以与(Cassendra)或 没有(RDBMS)分区容忍

图片来源

其他回答

简单的CAP定理指出,分布式系统不可能同时提供所有三个保证:

一致性

每个节点同时包含相同的数据

可用性

每次必须至少有一个节点可用以提供数据

分区容忍

系统的故障是非常罕见的

大多数情况下,每个系统只能保证至少两个特性:CA、AP或CP。

一致性——当我们发送读请求时,如果它正在返回结果,它应该返回客户端请求给出的最近的写。 可用性—您的读/写请求应该总是成功的。 分区容忍度——当网络分区(某些机器相互通信的问题)发生时,系统仍然可以工作。

在分布式环境中,存在网络分区发生的可能性,我们无法避免CAP的“P”。因此,我们在“一致性”和“可用性”之间进行选择。

http://bigdatadose.com/understanding-cap-theorem/

将P与C和A等同看待是一个错误,而C、A、P之间的“三选二”概念是具有误导性的。我解释CAP定理的简洁方式是,“在分布式数据存储中,在网络分区时,你必须在一致性或可用性中选择一个,并且不能两者兼得”。新的NoSQL系统正试图关注可用性,而传统的ACID数据库则更关注一致性。

你真的不能选择CA,网络分区不是任何人都想要的,它只是分布式系统的一个不受欢迎的现实,网络可能会失败。问题是,当这种情况发生时,你如何权衡你的应用程序。第一个提出这个术语的人的这篇文章似乎很清楚地解释了这一点。

根据CAP定理,分布式系统有三个特征:

一致性(C)表示所有系统组件具有相同的信息。

系统的可用性(A)意味着它不会因为另一个系统故障而停止工作。

分区容差(P)表示在任意网络包丢失的情况下,系统将继续工作。

根据CAP定理,一个系统最多只能有这三个特征中的两个。(ap, cp, ca)

我将用这里提到的ATM机示例详细解释

CAP定理讨论了一致性和可用性之间的权衡,如果您的分布式系统遭受分区,您必须做出取舍。分布式系统意味着您将数据存储在多个节点中,分区意味着这些节点之间的连接以某种方式断开。

分区是分布式系统中的通信中断 两个节点之间的连接丢失或暂时延迟。分区 容忍度意味着集群必须在任何情况下继续工作 系统节点间通信中断次数。

假设我们有一家小银行,只有两台自动取款机。客户可以存、取、查余额。你必须确保余额不会低于零。这些atm机之间的连接可以通过三种方式断开

1-您要使用的ATM机不能用。你刚刚放了个坏了的牌子

2-你要用的ATM机在工作,但另一台不能工作

3-他们都在工作,但有一个网络问题,他们无法相互沟通。

这个分布式系统正在遭受分区,我们需要在可用性和一致性之间做出选择:

如果银行选择一致的设计,自动柜员机将不会处理您的请求,因为它无法更新另一台自动柜员机中的余额。 如果银行选择了可用性,你的ATM会处理请求,跟踪发生了什么,然后当连接建立时,它只是告诉其他ATM发生了什么,但余额同时会不一致。