criteo一个ctr模型样例
https://github.com/guotong1988/criteo_dataset.git
这里使用的公开的criteo样本数据, auc可以超过80%。秘诀是全部使用embedding表征。
criteo的特征主要是两类,category和integer。category使用embedding比较好理解,integer也使用embedding,它的办法是对于<=0的数据都变为0,正数使用log2(1+x)+1进行压缩后取整来做离散化。
大体可见,离散化+embedding是最主要的特征工程方法。是感觉这里的离散化方法不是最优,负数全部使用一个embedding。如果使用等频分桶,是否auc会更好?
还没人赞这篇日记