北京师范大学认知神经科学与学习国家重点实验室

科研进展

周景峰课题组揭示大脑整合奖赏与不确定性信息以调控灵活行为

18 2025-07

2025年07月16日，北京师范大学认知神经科学与学习国家重点实验室和北京脑科学与类脑研究所周景峰课题组在Science Advances发表题Adaptive reward representations integrate expected uncertainty signals in orbitofrontal cortex的研究论文。研究发现，大鼠眶额叶皮层中的神经元能够将奖赏的延迟或大小与其不确定性信号整合，在单细胞水平上形成属性特异的适应性奖赏信息表征，从而支持灵活学习与风险调节。

配图1.png

在动物和人类中，强化学习依赖于对获得结果（perceived outcome）的感知，将其作为反馈信号，用于更新预测和行为策略。有趣的是，特定结果的主观价值或效用并非恒定不变，而是会受到个体对其发生概率的先验知识或主观信念的影响。这种对结果不确定性的主观估计被称为“预期不确定性（expected uncertainty）”或“风险（risk）”。举例来说，当我们习惯于网购快递准时送达时，就形成了较低的预期不确定性；此时，偶尔出现的提前或延误会引起显著的注意和情绪反应。相反，在高度不确定的投资环境中，投资者可能对短期盈亏的波动不那么敏感，而更关注长期收益。大脑是如何根据不同程度的预期不确定性，灵活地评估结果并调整行为策略的呢？

已有研究表明，大脑的眶额叶皮层（orbitofrontal cortex, OFC）在表征奖赏结果的多个属性（如延迟和大小）方面起着关键作用，这一发现在人类、灵长类动物和啮齿类动物中得到广泛验证。同时，OFC也是风险决策的重要脑区，其活动水平与奖赏大小的不确定性密切相关。既然一个脑区能够同时编码奖赏属性与相关的不确定性信号，那么一个重要问题也随之出现：这些信号是否会在同一神经元内发生相互作用，从而使奖赏表征能够整合不确定性信息，体现出对不同情境的适应性？

经济价值假说是关于眶额叶皮层功能的主流理论之一。根据该假说推测：与预期不确定性相关的神经活动，可能在部分神经元中与对应的奖赏属性，以及其它奖赏属性等信息整合于统一的价值维度中。如果存在这种整合，应该能够在单个神经元或神经群体层面被观测到。然而，该猜想尚未得到系统验证，多个关键问题仍待解决：神经元如何编码多种奖赏属性相关的预期不确定性？这些信号是否在单神经元或群体层面具有相同的编码方式？奖赏属性的神经表征是否会随着不确定性的变化而发生调节？

为回答上述问题，研究人员训练大鼠执行一项“气味–奖赏”关联任务，其中每种气味提示一种蔗糖水奖赏，同时该奖赏的延迟或大小分别具有特定的预期不确定性。通过记录大鼠OFC的单神经元活动，研究发现：部分OFC神经元能同时编码与奖赏延迟和大小相关的不确定性。然而，在神经群体层面，这些不确定性信号呈现出彼此不同的神经编码模式，且与延迟和大小本身的编码相互可区分，与经济价值假说的预测相悖。更重要的是，OFC中关于奖赏属性及其不确定性的神经信号在单神经元层面发生非线性整合和相互作用。随着预期不确定性的增加，神经元对延迟和大小的表征灵敏度降低。进一步的分析与模型比较表明，这种灵敏度下降并非源于奖赏延迟或大小的绝对值数增加，而更可能反映了神经元在不同情境中根据输入范围动态调整响应增益的“范围适应（range adaptation）”机制。研究因此揭示了OFC在细胞层面整合不确定性信息、形成适应性奖赏表征的神经机制。

配图2 大鼠行为学任务.png

图1 大鼠行为学任务

配图3 预期不确定性降低眶额叶皮层神经元编码奖赏信息的敏感度.png

图2 预期不确定性降低眶额叶皮层神经元编码奖赏信息的敏感度

总的来说，这项研究表明，OFC单神经元以属性特异性的方式将不确定性信号整合进奖赏结果表征中，使得个体能够根据环境变化灵活调整反馈评估。这一机制可能有助于个体在不确定和动态的环境中调节风险行为，并为理解赌博障碍和成瘾障碍中OFC功能异常所对应的神经编码机制提供了新的线索。

本研究得到了科技创新2030-“脑科学与类脑研究”重大项目、国家自然科学基金面上项目以及北京脑科学与类脑研究所的资助。博士生张倩如为本文第一作者，周景峰为通讯作者。

文章链接：https://www.science.org/doi/10.1126/sciadv.adv9590