Skip to content

数据集环境和分布偏移

数据最初从哪里来?以及我们计划最终如何处理模型的输出?

1. 分布偏移类型

1.1 协变量偏移

协变量偏移(Covariate Shift)是指训练数据和测试数据在特征分布上的差异,导致模型在测试集上的性能下降。

输入数据的特征变了, 但是特征和标签的关系没变

  • 例如分类中, 训练图片是猫和狗的高清图, 测试图片上是猫和狗的低分辨率图、或者动漫图

1.2 标签偏移

标签偏移(Label Shift)是指训练数据和测试数据在标签分布上的差异,导致模型在测试集上的性能下降。

标签分布变了,但是特征和标签的关系没变

  • 例如一个疾病诊断模型, 能根据症状判断病人得了什么疾病。以前某种罕见病很少见,后来因为环境变化,这种病突然流行起来。虽然疾病症状和体征没变,但不同疾病的比例变了。 预测这种罕见疾病的概率就要上升。
  • 建立一个产品推荐系统,它在整个冬天都有效,但圣诞节过后很久还会继续推荐圣诞帽。

1.3 概念偏移

概念偏移(Concept Shift)是指训练数据和测试数据在概念上的差异,导致模型在测试集上的性能下降。

同一个标签,含义可能随着时间地点发生变化

  • 例如 软饮料,在美国南方叫soda, 而在北方叫 pop, 某些地方叫tonic. 如果模型在训练时只接触到了soda, 那么在测试时遇到pop或tonic就会出错。

  • 例如翻译, 几十年前的翻译和现在的,语法规则可能会有变化,这总情况下模型需要重新理解标签含义,甚至推导从来。

2. 分布偏移纠正

2.1 协变量偏移纠正

核心思想就是给训练数据重新加权,让它们看起来更接近目标分布

对数几率回归

2.2 标签偏移纠正

根据标签分布加权

混淆矩阵

2.3 概念偏移纠正

缓慢发生, 跟进模型训练

突然发生,从零开始训练

3. 学习问题分类

3.1 批量学习

模型训练完成后,不再更新

训练-冻结模式:模型训练完成后部署,推理阶段不更新参数

  • 如图片分类: ImageNet预训练模型部署到安防摄像头

3.2 在线学习

每天都有新数据进来,模型需要实时更新。

流式更新:每接收一个新样本立即更新模型

  • 如推荐系统: 分钟级更新(FTRL-Proximal算法)
  • 如股票交易: 毫秒级更新(LSTM+在线贝叶斯优化)

4. 其它学习范式

面对不同环境挑战,要选择最适合的学习范式

4.1 老虎机

老虎机(Bandit)范式:即时反馈场景

  • 如新闻推送系统:
    • 动作空间:1000篇候选文章
    • 奖励信号:点击率(CTR)

4.2 控制

模型已知的确定性环境

  • 如自动驾驶路径规划

4.3 强化学习

序贯决策的未知环境

4.4 前沿趋势与工程建议

2026年关键技术融合

  • 在线学习+联邦学习
    • 应用:医疗跨机构联合建模(如COVID-24变种预测)
    • 优势:数据不离域 + 实时更新模型
  • 控制理论+神经微分方程
    • 突破:将物理约束嵌入神经网络架构(如机械臂能耗约束)

京ICP备2024093538号-1