如何正确使用列表?

简要背景:许多(大多数?)当代广泛使用的编程语言至少有一些共同的adt[抽象数据类型]，特别是，

字符串(由字符组成的序列) List(值的有序集合)和基于映射的类型(将键映射到值的无序数组)

在R编程语言中，前两者分别实现为字符和向量。

当我开始学习R时，有两件事几乎从一开始就很明显:list是R中最重要的数据类型(因为它是R data.frame的父类)，其次，我就是不理解它们是如何工作的，至少在我的代码中不能正确地使用它们。

首先，在我看来，R的列表数据类型是映射ADT的直接实现(Python中的字典，Objective C中的NSMutableDictionary, Perl和Ruby中的散列，Javascript中的对象文字，等等)。

例如，创建它们就像创建Python字典一样，通过将键值对传递给构造函数(在Python中是dict而不是list):

x = list("ev1"=10, "ev2"=15, "rv"="Group 1")

访问R List中的项就像访问Python字典中的项一样，例如x['ev1']。同样，你可以通过以下方法检索“键”或“值”:

names(x)    # fetch just the 'keys' of an R list
# [1] "ev1" "ev2" "rv"

unlist(x)   # fetch just the 'values' of an R list
#   ev1       ev2        rv 
#  "10"      "15" "Group 1" 

x = list("a"=6, "b"=9, "c"=3)  

sum(unlist(x))
# [1] 18

但R列表也不同于其他地图类型的adt(从我学过的语言中)。我猜这是S的初始规范的结果，也就是说，打算从头开始设计一种数据/统计DSL[领域特定语言]。

R列表与其他广泛使用的语言中的映射类型之间的三个显著区别(例如:Python, Perl, JavaScript):

首先，R中的列表是一个有序的集合，就像向量一样，即使值是键(即键可以是任何可哈希的值，而不仅仅是连续的整数)。其他语言中的映射数据类型几乎总是无序的。

其次，即使在调用函数时没有传入列表，即使返回列表的函数不包含(显式)列表构造函数，也可以从函数返回列表(当然，在实践中可以通过调用unlist来包装返回的结果来处理这个问题):

x = strsplit(LETTERS[1:10], "")     # passing in an object of type 'character'

class(x)                            # returns 'list', not a vector of length 2
# [1] list

R列表的第三个特殊特性:它们似乎不能成为另一个ADT的成员，如果您尝试这样做，那么主容器将被强制转换为列表。例如,

x = c(0.5, 0.8, 0.23, list(0.5, 0.2, 0.9), recursive=TRUE)

class(x)
# [1] list

我在这里的意图不是批评这种语言或它是如何被记录的;同样，我并不是说列表数据结构或它的行为有任何问题。我所追求的是纠正我对它们如何工作的理解，这样我就可以在我的代码中正确地使用它们。

以下是我想更好地理解的事情:

What are the rules which determine when a function call will return a list (e.g., strsplit expression recited above)? If I don't explicitly assign names to a list (e.g., list(10,20,30,40)) are the default names just sequential integers beginning with 1? (I assume, but I am far from certain that the answer is yes, otherwise we wouldn't be able to coerce this type of list to a vector w/ a call to unlist.) Why do these two different operators, [], and [[]], return the same result? x = list(1, 2, 3, 4) both expressions return "1": x[1] x[[1]] why do these two expressions not return the same result? x = list(1, 2, 3, 4) x2 = list(1:4)

请不要给我指R文档(?我已经仔细阅读了它，它并不能帮助我回答我刚才背诵的那种问题。

(最后，我最近学习并开始使用一个名为hash的R包(在CRAN上可用)，它通过S4类实现了传统的映射类型行为;我当然可以推荐这套套餐。)

当前回答

关于大家提出的问题，我愿按顺序回答并举例说明:

1)如果return语句添加了一个列表，则返回一个列表。考虑

 R> retList <- function() return(list(1,2,3,4)); class(retList())
 [1] "list"
 R> notList <- function() return(c(1,2,3,4)); class(notList())
 [1] "numeric"
 R>

2)没有设置名称:

R> retList <- function() return(list(1,2,3,4)); names(retList())
NULL
R>

3)它们不会返回相同的东西。你的例子给出了

R> x <- list(1,2,3,4)
R> x[1]
[[1]]
[1] 1
R> x[[1]]
[1] 1

其中x[1]返回x的第一个元素——这和x是一样的。每个标量都是长度为1的向量。另一方面，x[[1]]返回列表的第一个元素。

4)最后，两者的不同之处在于，它们分别创建一个包含四个标量的列表和一个包含单个元素的列表(恰好是一个包含四个元素的向量)。

2010-01-12 17:33:15

其他回答

列表之所以能够(有序地)工作，原因之一是为了满足对有序容器的需求，该容器可以在任何节点上包含任何类型，而向量不能做到这一点。在R中，列表被重用用于各种目的，包括形成data.frame的基，这是一个任意类型(但长度相同)的向量列表。

为什么这两个表达式不返回相同的结果?

x = list(1, 2, 3, 4); x2 = list(1:4)

给@Shane的答案加上一点，如果你想得到同样的结果，试试:

x3 = as.list(1:4)

它将1:4的向量强制转换为一个列表。

2010-01-12 18:19:46

关于其他语言中的向量和哈希/数组概念:

Vectors are the atoms of R. Eg, rpois(1e4,5) (5 random numbers), numeric(55) (length-55 zero vector over doubles), and character(12) (12 empty strings), are all "basic". Either lists or vectors can have names. > n = numeric(10) > n [1] 0 0 0 0 0 0 0 0 0 0 > names(n) NULL > names(n) = LETTERS[1:10] > n A B C D E F G H I J 0 0 0 0 0 0 0 0 0 0 Vectors require everything to be the same data type. Watch this: > i = integer(5) > v = c(n,i) > v A B C D E F G H I J 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 > class(v) [1] "numeric" > i = complex(5) > v = c(n,i) > class(v) [1] "complex" > v A B C D E F G H I J 0+0i 0+0i 0+0i 0+0i 0+0i 0+0i 0+0i 0+0i 0+0i 0+0i 0+0i 0+0i 0+0i 0+0i 0+0i Lists can contain varying data types, as seen in other answers and the OP's question itself.

我见过一些语言(ruby, javascript)，其中的“数组”可能包含变量数据类型，但例如在c++中，“数组”必须是相同的数据类型。我相信这是一个速度/效率的问题:如果你有一个数字(1e6)，你可以先验地知道它的大小和每个元素的位置;如果某个未知片段中可能包含“紫飞食人”，那么你就必须真正分析这些内容来了解它的基本事实。

当类型得到保证时，某些标准R操作也更有意义。例如cumsum(1:9)是有意义的，而cumsum(list(1,2,3,4,5，'a'，6,7,8,9)则没有意义，因为不能保证类型为double。

关于你的第二个问题:

即使在调用函数时从未传入List，也可以从函数返回List

函数返回的数据类型总是与输入的数据类型不同。Plot返回一个Plot，即使它不接受一个Plot作为输入。Arg返回一个数字，即使它接受了复数。等。

(至于strsplit:源代码在这里。)

2014-11-07 15:30:36

关于大家提出的问题，我愿按顺序回答并举例说明:

1)如果return语句添加了一个列表，则返回一个列表。考虑

 R> retList <- function() return(list(1,2,3,4)); class(retList())
 [1] "list"
 R> notList <- function() return(c(1,2,3,4)); class(notList())
 [1] "numeric"
 R>

2)没有设置名称:

R> retList <- function() return(list(1,2,3,4)); names(retList())
NULL
R>

3)它们不会返回相同的东西。你的例子给出了

R> x <- list(1,2,3,4)
R> x[1]
[[1]]
[1] 1
R> x[[1]]
[1] 1

其中x[1]返回x的第一个元素——这和x是一样的。每个标量都是长度为1的向量。另一方面，x[[1]]返回列表的第一个元素。

4)最后，两者的不同之处在于，它们分别创建一个包含四个标量的列表和一个包含单个元素的列表(恰好是一个包含四个元素的向量)。

2010-01-12 17:33:15

再补充一点:

R在散列包中确实有一个与Python dict等效的数据结构。你可以在这篇来自开放数据组的博客文章中读到它。这里有一个简单的例子:

> library(hash)
> h <- hash( keys=c('foo','bar','baz'), values=1:3 )
> h[c('foo','bar')]
<hash> containing 2 key-value pairs.
  bar : 2
  foo : 1

就可用性而言，哈希类非常类似于列表。但对于大型数据集，性能更好。

2010-02-17 19:14:40

为什么这两个不同的操作符[]和[[]]返回相同的结果?

x = list(1, 2, 3, 4)

[ ] provides sub setting operation. In general sub set of any object will have the same type as the original object. Therefore, x[1] provides a list. Similarly x[1:2] is a subset of original list, therefore it is a list. Ex. x[1:2] [[1]] [1] 1 [[2]] [1] 2 [[ ]] is for extracting an element from the list. x[[1]] is valid and extract the first element from the list. x[[1:2]] is not valid as [[ ]] does not provide sub setting like [ ]. x[[2]] [1] 2 > x[[2:3]] Error in x[[2:3]] : subscript out of bounds

2016-08-26 10:33:54

如何正确使用列表?

推荐文章

最新文章

标签