凯发·k8(国际) - 官方网站

凯发·k8(国际) - 官方网站

一站式提供商

提供设计,生产,安装,售后服务一条龙服务

15531125555

公司资讯

新闻中心

凯发·k8(国际) - 官方网站
邮箱:admin@meilianonline.com
手机:15531125555
电话:15531125555
地址:江西省南昌市红谷滩区凤凰中大道929号吉成大厦16层1601室

公司资讯
您的位置: 主页 > 新闻中心 > 公司资讯
记一次疑似JVM内存泄漏的排查过程
发布时间:2024-06-25 16:53浏览次数:

  凯发K8一触即发在今年的敏捷团队建设中,我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢?由此我的Runner探索之旅开始了!

  在日常部门OpsReview过程中,部门内多次遇到应用容器所在的宿主机磁盘繁忙导致的接口响应缓慢,TP99增高等影响服务性能的问题,其中比较有效的解决方案是开启日志的异步打印,可以有效避免同步日志打印在磁盘IO高起的情况下拖慢业务线程的执行效率。

  部门内的jimkv应用为了配合仓做切量,在最近将日志打印功能降到了INFO级别,打开日志打印以便问题排查,期间遇到过一次因宿主机磁盘繁忙引起TP99升高导致多个comsumer超时而影响了个别业务。

  经过评估遂对组内的两个基础应用(pk和jimkv)切换为异步日志打印功能,在pk上线一周后观察无异常情况后对jimkv也同样切换。

  具体切换方法为在项目里和log4j2.xml同级目录下创建onent.properties文件,配置如下:

  但是在jimkv开启3天后收到了JVM内存使用率超高的告警电话,担心会发生OOM而且时值周五晚就先将所有机器重启了一遍,最后一台执行jmap dump等命令来保留现场以备后续排查。

  理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将

  下图为开启异步日志后的GC和堆内存监控图,在左下角的堆内存图可以明显的看到堆内存的上涨情况,特别是白天业务量大的时候,按此趋势正好3天就能把堆内存涨到90%的告警阈值。

  下图为未开启异步记录日志的同步记录日志的监控图,可以看到JVM的堆空间是一个很平直的波动,并不会随时间的增加而上涨。

  理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将

  首先排查上述可能的原因1&2,可以肯定的是跟日志有关,因为这个应用基本没有业务逻辑,也不存在大量的计算,最多的是日志打印,那为什么不减少日志打印或干脆关闭日志打印呢,是的,这个应用平时是关闭日志打印的,最近是为了配合仓做切量才打开的日志打印。

  那么问题是由日志多导致的吗,说是,也可以说也不是,不是的原因是因为在开启异步日志之前已开启日志打印一段时间了,没有出现内存溢出的情况,所以推测日志多不是根因,它最多算是诱因。

  那关闭能解决吗?直觉告诉我肯定是能解决的,但好奇心驱使我没有去这么做,一是目前没有因为内存溢出出现线上问题;二是还没有出现FGC,JVM的PS收集器是可能承受内存在几乎满的情况下通过FGC来清理内存的,我们可以留一台观察其是否会发生FGC来验证上述的想法;

  上图是留的一台机器,在某日的上午近10点果然发生了一次FGC,可以看到左下角的堆内存一下降到不到500M,接着如期继续上涨,说明其不会发生OOM,也不会对线上业务产生影响,可以放心的开启异步日志打印并随时dump堆内存现场下来分析。

  这个现象最终并不会发生OOM,所以不能称其为内存溢出或泄漏,只能算作堆内存快速上涨(3天耗尽了4G内存),说明有不停的对象在YGC后被挪到了年老代,最后被FGC掉。

  通过VisualVM打开dump下来的文件,按照实例数来倒序排,在排除char、byte、int等Java基本类型后,占据第一的是

  可以明显看到g.StackTraceElement[]里的信息是每一个线程所经过的类和方法路径,从线程入口到当前所在类方法一一记录。

  此处并没有大日志,也没有日志大的相关信息,此时开始推测会不会是打印的异常日志导致的,因为应用里有一个频繁的业务异常会导致大量的堆栈信息打印,但异步日志开启前后并未有其他变化,而且也找不出可以证实的其他关键信息,只能留下来一个大大的问号【?】。

  基本可以排除是日志多和大日志引起的原因后,开始在各大知识库里搜寻公开的log4j异步日志的bug,包括在咨询了搜索引擎和大模型后,并未得到有明确关于log4j的bug相关信息,内心也不相信强大的log4j框架有bug,就算有bug就这么让我遇到了吗,每次抽奖都轮不到的我不可能有这种运气。

  继续回头看了很多遍dump出的堆文件,在多次看着char[]占用71%的堆空间情况下,终于忍不住点开了char[],在看到满屏的日志信息后,顿感眼前一片光明,难道真的是大日志导致的堆内存空间上涨啊。。。

  粗略的计算了下,第一大的char[]占据了3M的空间,而且char有474万个实例之多,果然是大日志搞的鬼。

  咱们知道JVM是分代进行垃圾回收的,对象实例在一次YGC后如果还存活的话会被放在Survival区,并多次YGC后虚拟机会将还存活的对象实例从Young区挪到Old区。

  从前面的堆内存图并结合JVM的分代垃圾回收知识,我们看出在每次YGC后总会有一小部分的对象实例被挪到了年老代里。

  关于log4j异步日志原理大家可以在网上搜索相关文章,这里不做冗余介绍了,我们直接从异步日志用到的RingBuffer和RingBufferLogEvent里开始查找相关信息。

  也就是日志大小在大于518个字符的时候是会被截断,而截断是通过Arrays.copyOf的方式new char[]实现的。

  截止到目前堆内存上涨的问题似乎找到了原因,而且也通过配置threadlocals解决了问题,为什么说似乎呢,后面会有解释,先来看看在前面的排查过程中我们还发现了什么?

  红框里的“LOG4J2-1270 no-GC”,这似乎是用户提交的一个issue,难道真的有bug?又一次带着大大的问号【?】去log4j的官网进行了搜索,,这是有关“LOG4J2-1270”的issue,但并没有发现有用的信息。

  倒是红框里最后的“no-GC”是log4j异步日志的一个特性,详细的可以访问log4j日志的官网查看,地址是。

  但是这里说的是“no-GC”,而现在的现象是出现了Garbage,并且是用FGC的,源码422行的备注。

  我们回到messageText上来,仔细想想异步日志虽然是重用RingBufferLogEvent,但每次在日志输出给磁盘IO后如果日志长度大于518个字符是要被new出来的char[]替掉的,也就是日志内容大于518个字符的char[]数组是活不过多次YGC的,是不可能进入到年老代的。

  似乎和我们的《Garbage-free Steady State Logging》是对应的,请允许我再一次用似乎这个词,因为和现象确实是朝着两个方向走。

  我们决定写一个本地测试类,来验证StringBuilders.trimToMaxSize在截断字符数组后是否会在多次GC后依然存活于堆内存中。

  以下是测试类的代码,首先创建一个512长度的StringBuilder,通过循环append放入32个A和480个B,sleep30秒用来操作dump堆内存文件,再将messageText进行截断,再次操作dump,分别分析两次dump出的文件,观察char[]数组的内容。

  难道有别的对象指向了RingBufferLogEvent里的messageText,我们又翻了几遍源码,仍是没有找到有指向messageText的对象,此刻陷入了僵局。

  此后我们又回头继续看dump的堆内存文件,在多次打开char[]实例后看到了一个现象,就在大概在6000多个char[]以后有大量的1056B的char[]。

  从上面两个图我们可以看到从近7000到221万的地方,大概有200多万的char[]实例都是1056B,难道这是大于518个字符后截断时被new出来的新char[]对象?带着这个疑问重新回到源码来找答案。

  既然1056B和518个字符是能对应上,也就是说我们现在的方向是对的,让我们继续往下走走,new出来的char[]再被使用的时候会怎么样呢

  如果大于518个字符还是会被替掉,还是会被YGC掉,因为潜意识里一直觉得是大日志导致的,所以一直在考虑大日志也就是肯定是大于518个字符。突然转念一想,大于518个字符,如果小于呢,小于等于518个字符会怎么样。

  如果小于等于518个字符的话......,也就是会重用这个new出来的char[],这样在多次YGC后这个实例就会从Eden区到Survival区再到Old区,如果这个时候来一个大于518个字符的日志呢,O(∩_∩)O哈哈~

  画面感来了,那个518字符的char[]被遗弃在了Old区,Young区里多了一个大于518个字符的新char[]实例。

  到这问题基本就已经很清晰了,原因就是我们的日志打印从小日志到大日志都有,不等长,日志内容是各业务系统在生产过程中的上下文信息,有长有短。

  RingBufferLogEvent里的messageText在来来回回的重用过程中,经过多次YGC就一定会有机会将518个字符长度的char[]遗弃在了Old区,长时间积累就导致了JVM堆空间不断上涨,最后经过一次FGC就能清除掉所有的char[]垃圾对象。

  JVM堆内存示意图,在多次GC后char[518]对象被挪到了old区,在某一次遇到大于518个字符日志的时候,在eden区new了一个新的char[]数组,原来的char[518]被留在了old区变成了垃圾对象。

  理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将

  如果可以确定日志大小或者是日志最大的长度,可以根据日志长度设置log4j.maxReusableMsgSize一个合理的值,使其不会出现字符数组频繁的trim和ensureCapacity,从而避免在Young区new char[]数组。

  这个其实是最好的方案,因为日志本来就不应该输出长日志内容,无论是从性能、存储、查看和排查,大日志输出打印都不是一个好的设计。

  所以在日志打印的地方控制日志长度,比如截取固定的日志长度,或者是计算下所要打印的日志长度,如果大于一定值,只打印日志长度而不打印日志内容。

  理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将

  由于篇幅及时间问题,我们没有做本地的压测对比,暂借用官网的一个压测结果,可以看到log4j的Garbage-free特性还是对应用的性能还是有很大的提升,所以不建议用上面的解决方案1来放弃使用异步日志的Garbage-free特性。

  理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  媒体曝光上海外滩街拍乱象,私人摄影占据观景C位,游客被“客气”请走,见记者采访,白衣人现身“打招呼”

  教育系统专家:上普通大学选专业不太重要!90%以上两院院士并非都毕业于顶尖学府,文理分科对就业没意义

  欧洲杯-西班牙1-0送阿尔巴尼亚出局 西班牙头名出线秒倒下!欧洲杯悲情剧:38岁魔笛狂喜到绝望,赛后哭了

15531125555