数据集环境和分布偏移

数据最初从哪里来？以及我们计划最终如何处理模型的输出？

1. 分布偏移类型

1.1 协变量偏移

协变量偏移（Covariate Shift）是指训练数据和测试数据在特征分布上的差异，导致模型在测试集上的性能下降。

输入数据的特征变了，但是特征和标签的关系没变

例如分类中，训练图片是猫和狗的高清图，测试图片上是猫和狗的低分辨率图、或者动漫图

1.2 标签偏移

标签偏移（Label Shift）是指训练数据和测试数据在标签分布上的差异，导致模型在测试集上的性能下降。

标签分布变了，但是特征和标签的关系没变

例如一个疾病诊断模型，能根据症状判断病人得了什么疾病。以前某种罕见病很少见，后来因为环境变化，这种病突然流行起来。虽然疾病症状和体征没变，但不同疾病的比例变了。预测这种罕见疾病的概率就要上升。
建立一个产品推荐系统，它在整个冬天都有效，但圣诞节过后很久还会继续推荐圣诞帽。

1.3 概念偏移

概念偏移（Concept Shift）是指训练数据和测试数据在概念上的差异，导致模型在测试集上的性能下降。

同一个标签，含义可能随着时间地点发生变化

例如软饮料，在美国南方叫soda, 而在北方叫 pop, 某些地方叫tonic. 如果模型在训练时只接触到了soda, 那么在测试时遇到pop或tonic就会出错。
例如翻译，几十年前的翻译和现在的，语法规则可能会有变化，这总情况下模型需要重新理解标签含义，甚至推导从来。

2. 分布偏移纠正

2.1 协变量偏移纠正

核心思想就是给训练数据重新加权，让它们看起来更接近目标分布

对数几率回归

2.2 标签偏移纠正

根据标签分布加权

混淆矩阵

2.3 概念偏移纠正

缓慢发生，跟进模型训练

突然发生，从零开始训练

3. 学习问题分类

3.1 批量学习

模型训练完成后，不再更新

训练-冻结模式：模型训练完成后部署，推理阶段不更新参数

如图片分类: ImageNet预训练模型部署到安防摄像头

3.2 在线学习

每天都有新数据进来，模型需要实时更新。

流式更新：每接收一个新样本立即更新模型

如推荐系统: 分钟级更新（FTRL-Proximal算法）
如股票交易: 毫秒级更新（LSTM+在线贝叶斯优化）

4. 其它学习范式

面对不同环境挑战，要选择最适合的学习范式

4.1 老虎机

老虎机（Bandit）范式：即时反馈场景

如新闻推送系统：
- 动作空间：1000篇候选文章
- 奖励信号：点击率（CTR）

4.2 控制

模型已知的确定性环境

如自动驾驶路径规划

4.3 强化学习

序贯决策的未知环境

4.4 前沿趋势与工程建议

2026年关键技术融合

在线学习+联邦学习
- 应用：医疗跨机构联合建模（如COVID-24变种预测）
- 优势：数据不离域 + 实时更新模型
控制理论+神经微分方程
- 突破：将物理约束嵌入神经网络架构（如机械臂能耗约束）

数据集环境和分布偏移 ​

1. 分布偏移类型 ​

1.1 协变量偏移 ​

1.2 标签偏移 ​

1.3 概念偏移 ​

2. 分布偏移纠正 ​

2.1 协变量偏移纠正 ​

2.2 标签偏移纠正 ​

2.3 概念偏移纠正 ​

3. 学习问题分类 ​

3.1 批量学习 ​

3.2 在线学习 ​

4. 其它学习范式 ​

4.1 老虎机 ​

4.2 控制 ​

4.3 强化学习 ​

4.4 前沿趋势与工程建议 ​