Cassandra中分区键、组合键和聚类键的区别?

我一直在网上阅读文章，以了解以下关键类型之间的差异。但我似乎很难理解。举例肯定有助于更好地理解。

primary key,
partition key, 
composite key 
clustering key

当前回答

简而言之:

分区键只是一行的标识，大多数情况下标识是单列(称为主键)，有时是多列的组合(称为组合分区键)。

集群键只是索引和排序。集群键依赖于以下几点:

where子句中除了主键列外还使用哪些列。如果你有非常大的记录，那么关于什么问题，我可以划分日期，以便于管理。例如，我有一个县100万的人口记录数据。因此，为了便于管理，我基于状态和pincode之后对数据进行了聚类。

2018-01-12 06:19:40

其他回答

在Cassandra中，主键、分区键、组合键、聚类键之间的区别总是让人困惑。所以，我将在下面解释并相互关联。我们使用CQL (Cassandra查询语言)来访问Cassandra数据库。注:-答案是根据Cassandra的更新版本。

主键:- 在Cassandra中有2种不同的方法来使用主键。

CREATE TABLE Cass (
    id int PRIMARY KEY,
    name text 
);

Create Table Cass (
   id int,
   name text,
   PRIMARY KEY(id) 
);

In CQL, the order in which columns are defined for the PRIMARY KEY matters. The first column of the key is called the partition key having property that all the rows sharing the same partition key (even across table in fact) are stored on the same physical node. Also, insertion/update/deletion on rows sharing the same partition key for a given table are performed atomically and in isolation. Note that it is possible to have a composite partition key, i.e. a partition key formed of multiple columns, using an extra set of parentheses to define which columns form the partition key.

分区和集群主键定义由两部分组成:分区键和集群列。第一部分映射到存储引擎行键，而第二部分用于对一行中的列进行分组。

CREATE TABLE device_check (
  device_id   int,
  checked_at  timestamp,
  is_power    boolean,
  is_locked   boolean,
  PRIMARY KEY (device_id, checked_at)
);

其中device_id是分区键，checked_at是cluster_key。

我们可以有多个集群键和分区键，这取决于声明。

2016-05-05 07:10:37

免责声明:这是特定于DynamoDB的答案，但这些概念也适用于Cassandra，因为两者都是NoSQL数据库。

创建表时，除表名外，还必须指定表的主键。主键唯一地标识表中的每个项，因此没有两个项可以具有相同的键。

DynamoDB支持两种不同的主键:

分区键-一个简单的主键，由一个称为分区键的属性组成。

DynamoDB使用分区键的值作为内部哈希函数的输入。散列函数的输出决定了项目将存储在其中的分区(DynamoDB内部的物理存储)。

在只有一个分区键的表中，不能有两个项具有相同的分区键值。

分区键和排序键——称为组合主键，这种类型的键由两个属性组成。第一个属性是分区键，第二个属性是排序键。

DynamoDB使用分区键值作为内部哈希函数的输入。散列函数的输出决定了项目将存储在其中的分区(DynamoDB内部的物理存储)。具有相同分区键值的所有项存储在一起，按排序键值排序。

在具有分区键和排序键的表中，两个项可能具有相同的分区键值。但是，这两个项必须具有不同的排序键值。

复合主键在查询数据时提供了额外的灵活性。例如，如果只提供Artist的值，DynamoDB将检索该艺术家的所有歌曲。为了只检索特定艺术家的歌曲子集，可以为artist提供一个值，同时为SongTitle提供一系列值。

注意:一个项目的分区键也称为它的哈希值属性。术语哈希属性派生自内部在DynamoDB中均匀分布数据项的哈希函数分区，基于其分区键值。

项的排序键也称为它的范围属性。术语range属性来源于DynamoDB将具有相同分区键的项物理地存储在一起的方式，按排序键值排序。

参考资料- https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/HowItWorks.CoreComponents.html#HowItWorks.CoreComponents.PrimaryKey

2021-05-31 15:12:15

由于已接受的答案相当长，所以添加一个摘要答案。术语“行”和“列”是在CQL上下文中使用的，而不是Cassandra实际实现的方式。

主键唯一地标识一行。复合键是由多列组成的键。分区键是查找一组行(即一个分区)的主要方法。集群键是主键中不是分区键的部分(并定义分区内的顺序)。

例子:

PRIMARY KEY (a):分区键为a。 PRIMARY KEY (a, b):分区键为a，集群键为b。 PRIMARY KEY ((a, b)):组合分区键为(a, b)。 PRIMARY KEY (a, b, c):分区键为a，复合聚类键为(b, c)。 PRIMARY KEY ((a, b)， c):组合分区键为(a, b)，聚类键为c。 PRIMARY KEY ((a, b)， c, d):复合分区键为(a, b)，复合聚类键为(c, d)。

2016-08-26 11:54:21

关于这一点有很多困惑，我会尽量让它简单一些。

主键是一个通用概念，用于指示用于从表中检索数据的一个或多个列。

主键可以是SIMPLE，甚至可以声明为内联:

 create table stackoverflow_simple (
      key text PRIMARY KEY,
      data text      
  );

这意味着它是由单列构成的。

但是主键也可以是COMPOSITE(又名COMPOUND)，由更多列生成。

 create table stackoverflow_composite (
      key_part_one text,
      key_part_two int,
      data text,
      PRIMARY KEY(key_part_one, key_part_two)      
  );

在COMPOSITE主键的情况下，键的“第一部分”称为PARTITION key(在本例中key_part_one是分区键)，键的第二部分是CLUSTERING key(在本例中key_part_two)

请注意，分区和集群键都可以由更多的列组成，如下所示:

 create table stackoverflow_multiple (
      k_part_one text,
      k_part_two int,
      k_clust_one text,
      k_clust_two int,
      k_clust_three uuid,
      data text,
      PRIMARY KEY((k_part_one, k_part_two), k_clust_one, k_clust_two, k_clust_three)      
  );

在这些名字背后…

分区键负责跨节点的数据分布。集群键负责分区内的数据排序。主键相当于单字段键表(即简单表)中的分区键。复合/复合键就是任何多列键

更多使用信息:DATASTAX文档

Small usage and content examples
***SIMPLE*** KEY:

insert into stackoverflow_simple (key, data) VALUES ('han', 'solo');
select * from stackoverflow_simple where key='han';

表内容

key | data
----+------
han | solo

COMPOSITE/COMPOUND KEY可以检索“宽行”(即你可以通过分区键进行查询，即使你定义了集群键)

insert into stackoverflow_composite (key_part_one, key_part_two, data) VALUES ('ronaldo', 9, 'football player');
insert into stackoverflow_composite (key_part_one, key_part_two, data) VALUES ('ronaldo', 10, 'ex-football player');
select * from stackoverflow_composite where key_part_one = 'ronaldo';

表内容

 key_part_one | key_part_two | data
--------------+--------------+--------------------
      ronaldo |            9 |    football player
      ronaldo |           10 | ex-football player

但是你可以查询所有的键(分区和集群)…

select * from stackoverflow_composite 
   where key_part_one = 'ronaldo' and key_part_two  = 10;

查询输出

 key_part_one | key_part_two | data
--------------+--------------+--------------------
      ronaldo |           10 | ex-football player

重要提示:分区键是使用where子句执行查询所需的最小说明符。如果您有一个组合分区键，如下所示

PRIMARY KEY((col1, col2)， col10, col4))

你可以通过至少传递col1和col2来执行查询，这是定义分区键的两列。进行查询的“一般”规则是，您必须至少传递所有分区键列，然后您可以按照设置的顺序随意添加每个集群键。

因此，有效的查询是(不包括辅助索引)

Col1和col2 Col1 col2 col10 Col1 col2 col10 col4

无效:

Col1 col2 col4 任何不同时包含col1和col2的元素

2014-07-25 10:12:44

主键:由分区键[和可选的集群键(或列)]组成分区键:通过“分区键”的哈希值确定数据在集群中的具体节点

聚类键:用于对每个分区(或负责节点及其副本)中的数据进行排序。

复合主键:如上所述，聚类键在主键中是可选的。如果没有提到它们，它就是一个简单的主键。如果提到了集群键，则它是复合主键。

组合分区键:只使用一列作为分区键，可能会导致行宽问题(取决于用例/数据建模)。因此，分区键有时被指定为多个列的组合。

对于查询中哪些是强制的，哪些是可以跳过的等等，尝试将Cassandra想象成一个巨大的HashMap会有所帮助。在HashMap中，你不能在没有Key的情况下检索值。

在这里，分区键扮演该键的角色。因此，每个查询都需要指定它们。没有这个卡桑德拉就不知道该搜索哪个节点。

集群键(列，可选)有助于在Cassandra找到负责特定Partition键的特定节点(及其副本)后进一步缩小查询搜索范围。

2018-01-10 07:07:48

Cassandra中分区键、组合键和聚类键的区别?

推荐文章

最新文章

标签