我如何计算一个ndarray中某一项的出现?

如果你对最快的执行感兴趣，你提前知道要查找哪个(s)值，并且你的数组是1D，或者你对扁平数组上的结果感兴趣(在这种情况下，函数的输入应该是np.ravel(arr)而不仅仅是arr)，那么Numba是你的朋友:

import numba as nb


@nb.jit
def count_nb(arr, value):
    result = 0
    for x in arr:
        if x == value:
            result += 1
    return result

或者，对于非常大的数组，并行化可能是有益的:

@nb.jit(parallel=True)
def count_nbp(arr, value):
    result = 0
    for i in nb.prange(arr.size):
        if arr[i] == value:
            result += 1
    return result

可以对np.count_nonzero()(它也有创建临时数组的问题——这是Numba解决方案中避免的问题)和基于np.unique()的解决方案(与其他解决方案相反，它实际上计算所有唯一值值)进行基准测试。

import numpy as np


def count_np(arr, value):
    return np.count_nonzero(arr == value)

import numpy as np


def count_np_uniq(arr, value):
    uniques, counts = np.unique(a, return_counts=True)
    counter = dict(zip(uniques, counts))
    return counter[value] if value in counter else 0

由于Numba支持“类型化”字典，也可以使用一个函数来计数所有元素的所有出现次数。这更直接地与np.unique()竞争，因为它能够在一次运行中计算所有值。这里提出了一个最终只返回单个值的元素数量的版本(为了比较，类似于count_np_uniq()中所做的事情):

@nb.jit
def count_nb_dict(arr, value):
    counter = {arr[0]: 1}
    for x in arr:
        if x not in counter:
            counter[x] = 1
        else:
            counter[x] += 1
    return counter[value] if value in counter else 0

输入是通过以下方式生成的:

def gen_input(n, a=0, b=100):
    return np.random.randint(a, b, n)

时间报告在下面的图中(第二行图是对更快的方法的放大):

表明简单的基于numba的解决方案对于较小的输入是最快的，而并行版本对于较大的输入是最快的。 NumPy版本在所有规模上都相当快。

当需要计算数组中的所有值时，对于足够大的数组，np.unique()比手动使用Numba实现的解决方案性能更好。

编辑:在最近的版本中，NumPy解决方案似乎变得更快了。在以前的迭代中，简单的Numba解决方案对于任何输入大小都优于NumPy的方法。

完整的代码可以在这里找到。

2020-04-01 12:53:47

就我个人而言，我认为: (y == 0).sum() and (y == 1).sum()

E.g.

import numpy as np
y = np.array([0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1])
num_zeros = (y == 0).sum()
num_ones = (y == 1).sum()

2016-05-05 20:51:53

使用numpy怎么样?count_non0，类似的

>>> import numpy as np
>>> y = np.array([1, 2, 2, 2, 2, 0, 2, 3, 3, 3, 0, 0, 2, 2, 0])

>>> np.count_nonzero(y == 1)
1
>>> np.count_nonzero(y == 2)
7
>>> np.count_nonzero(y == 3)
3

2016-02-22 09:14:18

最简单的方法是，如果没有必要的话做评论

import numpy as np
y = np.array([0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1])
count_0, count_1 = 0, 0
for i in y_train:
    if i == 0:
        count_0 += 1
    if i == 1:
        count_1 += 1
count_0, count_1

2023-01-05 07:59:14

如果你不想使用numpy或collections模块，你可以使用字典:

d = dict()
a = [0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1]
for item in a:
    try:
        d[item]+=1
    except KeyError:
        d[item]=1

结果:

>>>d
{0: 8, 1: 4}

当然，你也可以使用if/else语句。我认为Counter函数做了几乎相同的事情，但这个更透明。

2016-07-08 14:41:38