干货|九九互动的数据效能提升之路

2021-01-12 10.3k

2020年12月19日,数数科技在深圳举办了聚焦于游戏数据分析的沙龙活动,特邀了九九互动的技术总监张雷老师进行分享。在本次活动中,张雷老师分享了九九互动内部数据体系从0起步,再到数据赋能项目组,实现数据驱动精细运营的整个迭代过程。张雷老师的整场分享粗中有细,都是实战心得,道出了游戏行业数据部门在支持项目组过程中的辛酸苦辣,在活动现场引起了大家的共鸣。本文为活动现场张雷老师的内容部分实录,需要观看完整视频的可以访问数数科技官网。

数说变革丨走进深圳

大家好,我是来自九九互动的张雷,感谢数数科技的邀请,今天有幸在这里跟大家做一次交流,如果我的分享里能有一两句话可以让大家共鸣乃至所有启发,这一次的交流就算是有价值的了。

今天来的大多数同学应该对九九互动不甚了解,所以请允许我用一点时间对我司做简短的介绍。这是九九互动主打的三个产品,这三个产品都是休闲社交类的游戏,轻量级产品。九九是今年初才开始接入TA系统,所以从早期的决策,到TA落地,到下半年的深度使用,都还历历在目,因此我今天的分享也是在对这一年的回顾。

1. 为什么选择数数科技的TA系统

这个问题看起来很简单,数据分析系统是一个数据团队一定会需要的,但是在什么时候需要,具体需要什么样的分析系统,却又不那么简单。公司在早期是没有专门的数据团队的,一开始就是开发自己搞,怎么快怎么来,业务功能更重要,数据在这个阶段的作用就是粗暴的统计。后来开发不愿意做了,就抽出来一个人专门做数据报表,这就是数据团队的雏形,他一个人要承接所有的数据需求,由于没有规范,没有标准,累得要死,经常是五六个产品运营围着他要数据。

18年初,我们开始梳理流程,提升数据质量,使用了新的数仓,统一数据埋点的格式和指标口径,大大提升了取数和生成报表的效率,数据质量也开始稳定起来。19年,我们研发了离线的数据报表平台,通过模板化配置化的方式,进一步提高了数据效能,回头再看17年和18年的混乱,恍如隔世。看起来一切都挺好,但其实暗流涌动。

业务:“找数据团队取个数还得排期?要不直接把人安排到工作室专门给我们取数和做报表吧。” “这个报表挺复杂,但我就是需要。” “小时报表太慢了,能不能再快些?”

数据:“ 整天就是取数,写SQL跑报表,没成长,没意思。业务还很强势,各种奇葩需求都得满足,不开心。”

老板:“ 数据团队很辛苦,但价值没体现出来,做了这么多报表,也不知道各个报表之间的数据有什么关联?”


我们国内发行想要做到国内首屈一指,对投放效果的快速验证是核心能力,1小时的验证周期已经烂大街,他们需要的是分钟级的验证周期。如果一个分析系统还需要运营人员懂点SQL才能用好,这是一个成本极高的事情,至少在我司2年里还没有落地,手把手教都没用,屁股决定脑袋,运营没有动力去学。我们也对比过云产品和各类开源产品,最后还是选择了商业化产品,最根本的因素就是成本,时间是成本,研发资源是成本,后期维护也是成本,在公司的不同阶段,对成本的重视程度完全不同,作为一个早期的创业公司,最看重的是工具的ROI。用户体验非常重要,我们接触过很多的商业产品,但用起来就是觉得怪怪的,TA就没有这种感觉。运维全部交给数数,响应速度非常快,非常放心。有的商业产品要一口价300万,有的商业产品按事件量收费(不适合项目爆发),按我们当前的量级来估算,成本会高得惊人。


2. 使用TA系统期间遇到的问题和解决方式

我们用了三个月的时间落地,中间还是踩了挺多的坑,这里做个简单的分享。数据导入后的准确性是最重要的,可以说导入的数据一条都不能错,我们在这上面踩了挺多坑,花了大量的时间。所以在前期用小规模验证是非常非常有必要的。


3. 使用TA系统的一些经验分享

TA系统的看板功能还是比较强大的。基本能够配置出各种效果的总体看板,然后可以通过探索功能不停地下钻,帮助运营找到归因。看板的功能不是我分享的重点,我们每天有超过10亿条的事件上报,运营如何有效地关注数据,这就涉及到看板的设计,在这里我分享一下内部对看板设计的一些思路,我们大概分成三类:

1. 总体看板

这是制作人层面关注的最核心的指标,比如收入、投放、DAU、ARPU 、注册、留存等等,这是一个项目的健康指标,通过TA可以查看各指标的明细。

2. 专项看板

比如运营活动、支付、游戏核心玩法等。

3. 基于自定义关联性模型看板

主要是用于观察和验证模型的效果,比如我们做的自传播模型看板,可以很直观评估投放渠道的优劣,通过这样的设计可以让运营更聚焦。


除此之外,TA系统的这几个功能也都帮我们解决了很多实质性的问题:

1. 事件分析模型

功能非常强大而且灵活,比如我们可以一次性把游戏的所有指标全都配置出来,而且准确性高,我们发现过几次旧系统和TA的报表数据对不上的情况,无一例外都是我们旧系统的SQL写错了。

2. 留存模型

不仅仅是计算留存,而是符合先有x行为,后有y行为的模式都可以套用的模型,比如我们用这个来计算LTV。这个模式在我们分析场景中非常常见。

3. 用户标签功能

我们可以较为简单地将RFM模型落地,并通过事件分析跟踪它提升在某个物品道具的付费效果。之前运营都是拍脑袋定价格,现在有了用户分层后,定价就有了数据依据。

4. 虚拟属性

这是非常有用的功能,可以减少我们在前期的很多工作,比如我们上报的移动端系统信息,由于历史原因,报的粒度很粗,由于数据量的缘故,也不可能全部重新清洗,这时候用虚拟属性,就可以很简单解决这些问题,把手机品牌从系统信息里分离出来。除了这个,我们还利用虚拟属性设置了用户的生命周期,即动态地把当前事件时间与注册时间的差值作为生命周期,这个指标在我们的分析中被重度使用。

5. 报表需求

这是系统目前所无法直接配置出来的,这时候SQL IDE就有用了,特别是新版本上线后,已经支持从外部数据源读取数据生成列表,极大地补充了TA的全面性。

我们通过TA的API ,把一部分的数据包装成服务提供给业务,比如业务需要对各种用户进行推送。我们用API把业务自定义的所有用户标签拉取出来,供运营在运营中心上使用,实现一个半自动化的推送效果。

TA提供了简单的告警配置,可以对一些核心指标进行波动性监控,我们国内发行的所有项目都在使用这个功能。TA可以查询用户的所有事件,这个功能被我们拿来当做客服功能,之前的数仓无法保存太久的明细数据,很多时候都需要去找开发捞数据,效率很低,现在用这种方式就可以知道用户发生的所有行为。之前业务追着我们要数据,现在是追着我们帮他们分析,甚至有运营问我们数据团队是不是没啥事做了。

4. TA系统对我们产生的价值

好的工具产生的效果有时候真的会让人惊讶,运营跟我反馈,用了TA之后,他们对数据的理解明显加深了,过去因为工具不够便利,想验证个想法都要等好久,久而久之,就把思考的火花给磨没了,接入TA后,所有数据都可以用各种维度查询展示,用得越来越爽,从而激发了对数据的好奇和兴趣。我们旧的系统是离线数据,TA是实时数据,两者的数据源头是一致的,所以也算是一体化的初级实现了。目前在比较理想情况下,我们的国内发行可以在10几分钟内就判定当前渠道的优劣。


5. 未来我们将更好的使用TA系统

TA的架构是presto+kudu+hdfs, 我们的全量数据都在hdfs上,完全可以充分利用这些硬件,而TA也是支持外部对这些hdfs的读写,只要不破坏他自身结构即可。我们的业务经常会在某个地区爆发,部署独立的计算集群是一种性价比较高的方式,可以快速扩容和缩容我们仍然有一些报表在旧系统,需要用TA的SQL IDE来生成报表,TA后续会优化这类报表的体验。相信在未来我们也会更好使用TA系统,我今天的分享就是这些,谢谢大家。


相关推荐