我正在读这本书(NLTK),它令人困惑。熵的定义为:熵是每个标签的概率之和乘以相同标签的log概率我如何在文本挖掘方面应用熵和最大熵?有人能给我举个简单的例子吗?