比赛背景
地址:WSDM - KKBox's Churn Prediction Challenge
关键字:定义流失用户、流失预测、挖掘用户记录
第十一届ACM网络搜索与数据挖掘国际会议(WSDM)要求参赛者利用KKBOX数据集建立智能算法来预测订阅用户是否会流失。对于依赖订阅业务的KKBOX来说,准确预测流失率是业务成功的关键。通过结果分析,以便KKBOX进一步了解用户需求,在保持用户活跃度上进一步采取行动。
KKBOX,是专业的数位音乐资讯服务软体,获得最多家国内与国际知名音乐出版发行公司热情的赞助合作,在台湾音乐占着重要的地位。KKBOX可以看做湾湾版的QQ音乐、酷狗音乐,订阅业务就是开通会员,可以听到更多的收费歌曲。
比赛阶段:
2017年9月18日,比赛开始
2017年12月10日,结束队伍合并
2017年12月17日,比赛结束
2018年1月9日,论文提交截止
比赛细节
任务描述:预测用户在会员到期后的30天内是否会进行新的订阅。提交结果为流失的概率。例如1代表此用户完全会流失,0.6代表此用户流失的概率为60%。
训练集中,数据由2017年2月服务到期的用户构成,is_churn标签代表用户在2017年3月是否续订了业务。测试集中的数据由2017年3月内将到期的用户构成,需要预测用户是否在到期后的一个月内即2017年4月预定、流失的概率。
评价指标
数据与字段解释
train.csv 官方训练集 44.5MB
- msno:用户id,加密String
- is_churn:流失标签 ,仅包含0,1
sample_submission_zero.csv 提交结果
- msno
- is_churn:预测流失概率,[0,1]浮点数
transactions.csv 用户交易流水 1.6GB
- msno
- payment_method_id:支付方式,Int
- payment_plan_days:订阅天数,Int
- plan_list_price:标价(新台币),Int
- actual_amount_paid:实际支付价格,Int
- is_auto_renew:是否自动续订,0,1
- transaction_date:交易日期
- membership_expire_date:到期日期
- is_cancel:是否取消业务,0,1
user_logs.csv 用户行为日志 28.4GB
- msno,date: 日期
- num_25: 当天歌曲播放长度小于25%的歌曲数量
- num_50: 当天歌曲播放长度小于50%大于25%的歌曲数量
- num_75: 当天歌曲播放长度小于70%大于50%的歌曲数量
- num_985:当天歌曲播放长度小于98.5%大于75%的歌曲数量
- num_100:当天歌曲播放长度大于98.5%的歌曲数量
- num_unq: 当天听了多少首不同的歌
- total_secs: 播放时间(秒)
members.csv 用户基本信息 352MB
- msno
- city:城市,数值代替,Int
- bd: 年龄,有异常值,Int
- gender:male,female,String
- registered_via: 注册方式,数值代替,Int
- registration_init_time: 注册日期 %Y%m%d,String
- expiration_date: 会员最后到期日期 %Y%m%d ,String
相关比赛资料
WSDM CUP 2018 Call-for-Participants
Customer Churn Prediction and Prevention
Kernels :Competition data exploration
Kernels :xgb baseline
建了个QQ交流群:671904286,比赛有兴趣的同学可以进群一起交流
交流帖:kaggle用户流失预测比赛交流 - 集智社区
欢迎关注专栏——数与码与作者,后期将继续更新比赛文章~
最后,点一波赞吧~
没有评论:
发表评论