实时检测机器人广告点击的深度学习技术
机器人广告点击检测的任务是判断电商网站上的广告点击是由人类还是软件代理发起。其目标是确保广告主活动不会被机器人行为计费,同时避免误判人类点击。该系统需要实时运行以最小化对广告体验的干扰,并具备可扩展性、全面性、精确性以及快速响应流量变化的能力。
在今年的创新人工智能应用会议(IAAI)上,我们提出了SLIDR(切片级机器人检测)系统。这是一个通过弱监督训练的实时深度神经网络模型,用于识别在线广告中的无效点击。自2021年起,SLIDR已在某中心部署,保护广告主活动免受机器人点击影响。
技术挑战与解决方案
标签生成
由于缺乏大规模准确标注数据,我们通过两种高门槛活动生成标签:
- 导致购买的广告点击
-
- 来自高RFM分值客户账户的点击(RFM代表客户购买行为的近期性、频率和货币价值)
评估指标
采用三类特殊指标:
- 无效率(IVR):算法标记为机器人的点击比例,反映模型召回率
-
- 误报率(FPR):将购买点击作为人类点击样本,计算被错误标记的比例
-
- 机器人覆盖率:通过启发式方法(如1小时内超过k次点击的会话)验证模型覆盖范围
神经网络模型架构
模型输入特征包括:
- 用户级频率和速率计数器
-
- 用户实体计数器(如IP下的独立会话数)
-
- 点击时间特征(映射到单位圆上的昼夜周期)
-
- 登录状态区分 网络结构采用三层全连接架构,使用ReLU激活函数和L2正则化。训练时通过样本权重平衡不同时间切片和登录状态的数据分布。
切片级校准优化
将校准问题构建为凸优化问题:
- 设定整体FPR预算上限
-
- 为每个流量切片设置最小机器人覆盖率约束
-
- 通过二次函数近似各切片的IVR-FPR曲线
-
- 联合优化最大化总IVR
系统部署
系统包含两个核心组件:
- 离线系统:每日进行模型重训练和校准
-
- 实时组件:结合Redis和只读数据库缓存计算特征值,在GPU实例集群上运行神经网络推理 关键保障措施包括:
- 输入数据护栏(如每周各时段最小人类点击密度)
-
- 异常模型更新阻止机制
-
- 灾难恢复方案(快速回滚/流量重放工具)
未来方向
计划新增特征包括:
- 用户/IP/UserAgent/搜索查询的嵌入表示
-
- 深度交叉网络等先进架构以捕捉特征交互 该系统已证明能有效平衡机器人检测精度与商业影响,为在线广告生态提供重要安全保障。 更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)