查德·伯奇和亚当·戴维斯的观点是正确的,你必须回顾过去,建立一个基线。你的问题,从措辞上看,表明你只想查看过去24小时的数据,这并不完全正确。
为数据提供一些内存而不必查询大量历史数据的一种方法是使用指数移动平均。这样做的好处是,您可以每个周期更新一次,然后刷新所有旧数据,因此您只需要记住一个值。所以如果你的周期是一天,你必须为每个主题维护一个“每日平均”属性,你可以通过:
a_n = a_(n-1)*b + c_n*(1-b)
其中a_n是第n天的移动平均值,b是0到1之间的某个常数(越接近1,内存越长),c_n是第n天的点击次数。美妙的是,如果你在第n天结束时执行更新,你可以刷新c_n和a_(n-1)。
需要注意的是,初始时它对a的初始值很敏感。
EDIT
如果这有助于可视化这个方法,取n = 5, a_0 = 1, b = .9。
假设新的值是5,0,0,1,4:
a_0 = 1
c_1 = 5 : a_1 = .9*1 + .1*5 = 1.4
c_2 = 0 : a_2 = .9*1.4 + .1*0 = 1.26
c_3 = 0 : a_3 = .9*1.26 + .1*0 = 1.134
c_4 = 1 : a_4 = .9*1.134 + .1*1 = 1.1206
c_5 = 4 : a_5 = .9*1.1206 + .1*5 = 1.40854
看起来不太像平均值,不是吗?请注意,即使我们的下一个输入是5,该值仍然接近1。这是怎么呢如果你展开计算,你会得到:
a_n = (1-b)*c_n + (1-b)*b*c_(n-1) + (1-b)*b^2*c_(n-2) + ... + (leftover weight)*a_0
我说的剩余重量是什么意思?在任何平均值中,所有的权重都必须加为1。如果n是无穷大,那么。可以一直延续下去,那么所有权值的和都是1。但如果n相对较小,原始输入就会有相当大的权重。
如果你研究了上面的公式,你应该意识到关于这个用法的一些事情:
所有数据永远都对平均值有所贡献。实际上,有一个点的贡献是非常非常小的。
最近的值比旧值贡献更大。
b越高,新值越不重要,旧值越重要。然而,b越高,就需要越多的数据来冲淡a的初值。
我认为前两个特点正是你要找的。为了给你一个简单的想法,这是一个python实现(减去所有的数据库交互):
>>> class EMA(object):
... def __init__(self, base, decay):
... self.val = base
... self.decay = decay
... print self.val
... def update(self, value):
... self.val = self.val*self.decay + (1-self.decay)*value
... print self.val
...
>>> a = EMA(1, .9)
1
>>> a.update(10)
1.9
>>> a.update(10)
2.71
>>> a.update(10)
3.439
>>> a.update(10)
4.0951
>>> a.update(10)
4.68559
>>> a.update(10)
5.217031
>>> a.update(10)
5.6953279
>>> a.update(10)
6.12579511
>>> a.update(10)
6.513215599
>>> a.update(10)
6.8618940391
>>> a.update(10)
7.17570463519