Appearance
数据集环境和分布偏移
数据最初从哪里来?以及我们计划最终如何处理模型的输出?
1. 分布偏移类型
1.1 协变量偏移
协变量偏移(Covariate Shift)是指训练数据和测试数据在特征分布上的差异,导致模型在测试集上的性能下降。
输入数据的特征变了, 但是特征和标签的关系没变
- 例如分类中, 训练图片是猫和狗的高清图, 测试图片上是猫和狗的低分辨率图、或者动漫图
1.2 标签偏移
标签偏移(Label Shift)是指训练数据和测试数据在标签分布上的差异,导致模型在测试集上的性能下降。
标签分布变了,但是特征和标签的关系没变
- 例如一个疾病诊断模型, 能根据症状判断病人得了什么疾病。以前某种罕见病很少见,后来因为环境变化,这种病突然流行起来。虽然疾病症状和体征没变,但不同疾病的比例变了。 预测这种罕见疾病的概率就要上升。
- 建立一个产品推荐系统,它在整个冬天都有效,但圣诞节过后很久还会继续推荐圣诞帽。
1.3 概念偏移
概念偏移(Concept Shift)是指训练数据和测试数据在概念上的差异,导致模型在测试集上的性能下降。
同一个标签,含义可能随着时间地点发生变化
例如 软饮料,在美国南方叫soda, 而在北方叫 pop, 某些地方叫tonic. 如果模型在训练时只接触到了soda, 那么在测试时遇到pop或tonic就会出错。
例如翻译, 几十年前的翻译和现在的,语法规则可能会有变化,这总情况下模型需要重新理解标签含义,甚至推导从来。
2. 分布偏移纠正
2.1 协变量偏移纠正
核心思想就是给训练数据重新加权,让它们看起来更接近目标分布
对数几率回归
2.2 标签偏移纠正
根据标签分布加权
混淆矩阵
2.3 概念偏移纠正
缓慢发生, 跟进模型训练
突然发生,从零开始训练
3. 学习问题分类
3.1 批量学习
模型训练完成后,不再更新
训练-冻结模式:模型训练完成后部署,推理阶段不更新参数
- 如图片分类: ImageNet预训练模型部署到安防摄像头
3.2 在线学习
每天都有新数据进来,模型需要实时更新。
流式更新:每接收一个新样本立即更新模型
- 如推荐系统: 分钟级更新(FTRL-Proximal算法)
- 如股票交易: 毫秒级更新(LSTM+在线贝叶斯优化)
4. 其它学习范式
面对不同环境挑战,要选择最适合的学习范式
4.1 老虎机
老虎机(Bandit)范式:即时反馈场景
- 如新闻推送系统:
- 动作空间:1000篇候选文章
- 奖励信号:点击率(CTR)
4.2 控制
模型已知的确定性环境
- 如自动驾驶路径规划
4.3 强化学习
序贯决策的未知环境
4.4 前沿趋势与工程建议
2026年关键技术融合
- 在线学习+联邦学习
- 应用:医疗跨机构联合建模(如COVID-24变种预测)
- 优势:数据不离域 + 实时更新模型
- 控制理论+神经微分方程
- 突破:将物理约束嵌入神经网络架构(如机械臂能耗约束)