• 隐藏侧边栏
  • 展开分类目录
  • 关注微信公众号
  • 我的GitHub
  • QQ:1753970025
Chen Jiehua

CTR预估之特征选择 

目录

在广告投放中,为进一步提高广告点击率,我们通常会使用一些机器学习算法(比如常见的逻辑回归算法(Logistic Regression),梯度提升决策树算法GBDT(Gradient Boosting Decision Tree))进行CTR预估。而CTR预估结果的准确性,很大程度取决于训练数据特征的有效性。

信息熵

信息增益

数据测试

我们用某广告投放一段时间后获得的日志数据,来进行计算它的信息和信息增益。

信息熵&信息增益

广告整体信息熵:0.0501020793776

每个广告对应的信息增益:

特征维度数信息增益
hour240.0000458265
minute600.0000393702
spotid70.0000324241
adid20.0000324241
app20.0000070514
pn540.0020143116
slotid30.0000260086
w30.0000260086
h30.0000260086
country20.0000016058
city3880.0002733143
region330.0000378603
nt30.0000005660
brd30.0000009544
mod1150.0005215242
dd560.0004666624
sw110.0001252699
sh110.0001660389
gender30.0000589429
age100.0000651292
edu30.0000275445
interest2040.0025589520

AUC&Logloss

我们使用LR算法进行模型训练,对比去掉部分特征之后模型的AUC和Logloss:

AUCLogloss
所有特征0.6859996091960.0642677007766
去掉信息增益 last5特征(保留:interest,pn,mod,dd,city,sh,sw,age,gender,hour,minute,region,spotid,adid,edu,slotid)0.6818659793660.0635880887503
去掉信息增益 top5特征(保留:sh,sw,age,gender,hour,minute,region,spotid,adid,edu,slotid,w,h,app,country,brd,nt)0.545449066190.0659654279931

结论

  • 信息增益为0的特征,对模型无任何价值(可以直接删掉);
  • 对比去掉信息增益 top5 与 last5 的特征可以发现:信息增益越大,对模型产生的效果越明显;
  • 要提升AUC,必需寻找信息增益比较大的特征加入到模型中进行训练;

 

参考:

码字很辛苦,转载请注明来自ChenJiehua《CTR预估之特征选择》

评论