建设银行发卡银行网站,网站市场推广,简洁网站倒计时代码,网站定制开发哪家做的好导读#xff1a;C内存泄漏问题的分析、定位一直是Android平台上困扰开发人员的难题。因为地图渲染、导航等核心功能对性能要求很高#xff0c;高德地图APP中存在大量的C代码。解决这个问题对于产品质量尤为重要和关键#xff0c;高德技术团队在实践中形成了一套自己的解决方…导读C内存泄漏问题的分析、定位一直是Android平台上困扰开发人员的难题。因为地图渲染、导航等核心功能对性能要求很高高德地图APP中存在大量的C代码。解决这个问题对于产品质量尤为重要和关键高德技术团队在实践中形成了一套自己的解决方案。
分析和定位内存泄漏问题的核心在于分配函数的统计和栈回溯。如果只知道内存分配点不知道调用栈会使问题变得格外复杂增加解决成本因此两者缺一不可。
Android中Bionic的malloc_debug模块对内存分配函数的监控及统计是比较完善的但是栈回溯在Android体系下缺乏高效的方式。随着Android的发展Google也提供了栈回溯的一些分析方法但是这些方案存在下面几个问题
1.栈回溯的环节都使用的libunwind这种获取方式消耗较大在Native代码较多的情况下频繁调用会导致应用很卡而监控所有内存操作函数的调用栈正需要高频的调用libunwind的相关功能。
2.有ROM要求限制给日常开发测试带来不便。
3.用命令行或者DDMS进行操作每排查一次需准备一次环境手动操作最终结果也不够直观同时缺少对比分析。
因此如何进行高效的栈回溯、搭建系统化的Android Native内存分析体系显得格外重要。
高德地图基于这两点做了一些改进和扩展经过这些改进通过自动化测试可及时发现并解决这些问题大幅提升开发效率降低问题排查成本。
一、栈回溯加速
**Android平台上主要采用libunwind来进行栈回溯可以满足绝大多数情况。但是libunwind实现中的全局锁及unwind table解析会有性能损耗在多线程频繁调用情况下会导致应用变卡无法使用。
加速原理
编译器的-finstrument-functions编译选项支持编译期在函数开始和结尾插入自定义函数在每个函数开始插入对__cyg_profile_func_enter的调用在结尾插入对__cyg_profile_func_exit的调用。这两个函数中可以获取到调用点地址通过对这些地址的记录就可以随时获取函数调用栈了。
插桩后效果示例 这里需要格外注意某些不需要插桩的函数可以使用__attribute__((no_instrument_function))来向编译器声明。
如何记录这些调用信息我们想要实现这些信息在不同的线程之间读取而且不受影响。一种办法是采用线程的同步机制比如在这个变量的读写之处加临界区或者互斥量但是这样又会影响效率了。
能不能不加锁这时就想到了线程本地存储简称TLS。TLS是一个专用存储区域只能由自己线程访问同时不存在线程安全问题符合这里的场景。
于是采用编译器插桩记录调用栈并将其存储在线程局部存储中的方案来实现栈回溯加速。具体实现如下
1.利用编译器的-finstrument-functions编译选项在编译阶段插入相关代码。
2.TLS中对调用地址的记录采用数组游标的形式实现最快速度的插入、删除及获取。
定义数组游标的数据结构
typedef struct {void* stack[MAX_TRACE_DEEP];int current;
} thread_stack_t;
初始化TLS中thread_stack_t的存储key
static pthread_once_t sBackTraceOnce PTHREAD_ONCE_INIT;static void __attribute__((no_instrument_function))
destructor(void* ptr) {if (ptr) {free(ptr);}
}static void __attribute__((no_instrument_function))
init_once(void) {pthread_key_create(sBackTraceKey, destructor);
}
初始化thread_stack_t放入TLS中
get_backtrace_info() {thread_stack_t* ptr (thread_stack_t*) pthread_getspecific(sBackTraceKey);if (ptr)return ptr;ptr (thread_stack_t*)malloc(sizeof(thread_stack_t));ptr-current MAX_TRACE_DEEP - 1;pthread_setspecific(sBackTraceKey, ptr);return ptr;
}
3.实现__cyg_profile_func_enter和__cyg_profile_func_exit记录调用地址到TLS中。
void __attribute__((no_instrument_function))
__cyg_profile_func_enter(void* this_func, void* call_site) {pthread_once(sBackTraceOnce, init_once);thread_stack_t* ptr get_backtrace_info();if (ptr-current 0)ptr-stack[ptr-current--] (void*)((long)call_site - 4);
}void __attribute__((no_instrument_function))
__cyg_profile_func_exit(void* this_func, void* call_site) {pthread_once(sBackTraceOnce, init_once);thread_stack_t* ptr get_backtrace_info();if (ptr-current MAX_TRACE_DEEP)ptr-current MAX_TRACE_DEEP - 1;
}
}
__cyg_profile_func_enter的第二个参数call_site就是调用点的代码段地址函数进入的时候将它记录到已经在TLS中分配好的数组中游标ptr-current左移待函数退出游标ptr-current右移即可。
逻辑示意图 记录方向和数组增长方向不一致是为了对外提供的获取栈信息接口更简洁高效可以直接进行内存copy以获取最近调用点的地址在前、最远调用点的地址在后的调用栈。
4.提供接口获取栈信息。
get_tls_backtrace(void** backtrace, int max) {pthread_once(sBackTraceOnce, init_once);int count max;thread_stack_t* ptr get_backtrace_info();if (MAX_TRACE_DEEP - 1 - ptr-current count) {count MAX_TRACE_DEEP - 1 - ptr-current;}if (count 0) {memcpy(backtrace, ptr-stack[ptr-current 1], sizeof(void *) * count);}return count;
}
5.将上面逻辑编译为动态库其他业务模块都依赖于该动态库编译同时编译flag中添加-finstrument-functions进行插桩进而所有函数的调用都被记录在TLS中了使用者可以在任何地方调用get_tls_backtrace(void** backtrace, int max)来获取调用栈。
效果对比采用Google的benchmark做性能测试手机型号华为畅想5S5.1系统
libunwind单线程TLS方式单线程获取libunwind 10个线程TLS方式 10个线程
从上面几个统计图可以看出单线程模式下该方式是libunwind栈获取速度的10倍10个线程情况下是libunwind栈获取速度的50-60倍速度大幅提升。
优缺点 •优点: 速度大幅提升满足更频繁栈回溯的速度需求。 •缺点: 编译器插桩体积变大不能直接作为线上产品使用只用于内存测试包。这个问题可以通过持续集成的手段解决每次项目出库将C项目产出普通库及对应的内存测试库。
二、体系化
经过以上步骤可以解决获取内存分配栈慢的痛点问题再结合Google提供的工具如DDMS、adb shell am dumpheap -n pid /data/local/tmp/heap.txt 命令等方式可以实现Native内存泄漏问题的排查不过排查效率较低需要一定的手机环境准备。
于是我们决定搭建一整套体系化系统可以更便捷的解决此类问题下面介绍下整体思路
•内存监控沿用LIBC的malloc_debug模块。不使用官方方式开启该功能比较麻烦不利于自动化测试可以编译一份放到自己的项目中hook所有内存函数跳转到malloc_debug的监控函数leak_xxx执行这样malloc_debug就监控了所有的内存申请/释放并进行了相应统计。
•用get_tls_backtrace实现malloc_debug模块中用到的__LIBC_HIDDEN__ int32_t get_backtrace_external(uintptr_t* frames, size_t max_depth)刚好同上面说的栈回溯加速方式结合。
•建立Socket通信支持外部程序经由Socket进行数据交换以便更方便获取内存数据。
•搭建Web端获取到内存数据上传后可以被解析显示这里要将地址用addr2line进行反解。
•编写测试Case同自动化测试结合。测试开始时通过Socket收集内存信息并存储测试结束将信息上传至平台解析并发送评估邮件。碰到有问题的报警研发同学就可以直接在Web端通过内存曲线及调用栈信息来排查问题了。
系统效果示例 原文链接 本文为云栖社区原创内容未经允许不得转载。