我有一个长时间运行的脚本,如果让它运行足够长的时间,它将占用系统上的所有内存。
在不讨论剧本细节的情况下,我有两个问题:
是否有任何“最佳实践”可以遵循,这将有助于防止泄漏的发生? 在Python中有哪些调试内存泄漏的技术?
我有一个长时间运行的脚本,如果让它运行足够长的时间,它将占用系统上的所有内存。
在不讨论剧本细节的情况下,我有两个问题:
是否有任何“最佳实践”可以遵循,这将有助于防止泄漏的发生? 在Python中有哪些调试内存泄漏的技术?
当前回答
要检测和定位长时间运行进程的内存泄漏,例如在生产环境中,您现在可以使用堆栈影响。它在下面使用tracemalloc。更多信息在这篇文章。
其他回答
我尝试了前面提到的大多数选项,但发现这个小而直观的包是最好的:pympler
跟踪没有被垃圾回收的对象非常简单,请看这个小例子:
通过PIP Install pympler安装包
from pympler.tracker import SummaryTracker
tracker = SummaryTracker()
# ... some code you want to investigate ...
tracker.print_diff()
输出显示已添加的所有对象,以及它们所消耗的内存。
样例输出:
types | # objects | total size
====================================== | =========== | ============
list | 1095 | 160.78 KB
str | 1093 | 66.33 KB
int | 120 | 2.81 KB
dict | 3 | 840 B
frame (codename: create_summary) | 1 | 560 B
frame (codename: print_diff) | 1 | 480 B
这个包提供了更多的特性。检查pympler的文档,特别是识别内存泄漏一节。
要检测和定位长时间运行进程的内存泄漏,例如在生产环境中,您现在可以使用堆栈影响。它在下面使用tracemalloc。更多信息在这篇文章。
让我推荐我创建的mem_top工具
它帮助我解决了一个类似的问题
它会立即显示Python程序中最可能出现内存泄漏的地方
这绝不是详尽的建议。但是,在考虑避免未来的内存泄漏(循环)时,要记住的第一件事是确保任何接受回调引用的东西都应该将该回调存储为弱引用。
您应该特别查看全局数据或静态数据(长寿数据)。
当这些数据不受限制地增长时,在Python中也会遇到麻烦。
垃圾收集器只能收集不再被引用的数据。但是静态数据可以连接应该释放的数据元素。
另一个问题可能是内存周期,但至少在理论上垃圾收集器应该找到并消除周期——至少只要它们不依赖于一些长期存在的数据。
什么样的长寿命数据特别麻烦?仔细查看任何列表和字典——它们可以无限制地增长。在字典中,你甚至可能看不到这个问题,因为当你访问字典时,字典中的键数可能对你来说不是很明显……