Research
  • Research Progress
  • 龚高浪课题组揭示机器学习算法类型和样本量对预测个体行为的影响及其相关规律
     
        2018年6月2日,北京师范大学认知神经科学与学习国家重点实验室龚高浪团队,在国际神经影像方法学领域的权威期刊《NeuroImage》在线发表了题为“The effect of machine learning regression algorithms and sample size on individualized behavioral prediction with functional connectivity features”的研究论文,揭示了机器学习算法类型和样本量对预测个体行为的影响及其相关规律。
     
        近年来,人脑影像研究领域开始越来越多的应用机器学习回归方法,主要用于基于脑影像数据预测个体水平的各种认知行为能力、以及从多元模式分析的角度探讨脑与认知行为的关系。在这类脑影像研究中,存在两个重要的方法学因素:1)机器学习回归算法;2)被试样本量。已有研究采用的机器学习回归算法不尽相同,且样本量也存在很大差异,亟需系统地评估这两方面因素对于个体化认知行为预测的影响模式,从而为后续研究提供方法学指导。

     
       针对此,本研究通过人脑连接组计划(HCP)的静息态功能磁共振数据提取两个维度的脑影像特征:功能连接(rsFC)和节点强度(rsFCS),利用人脑影像领域常用的6种回归算法(OLS, LASSO, ridge, elastic-net, LSVR, and RVR)分别对多项认知行为能力进行不同样本量下的机器学习预测研究(5-fold cross-validation)。结果表明,所有算法的个体预测整体效果与可靠性都随着样本量的增加而提升,且按照指数函数分布的规律提升,预测效果及其可靠性均在200~300样本量之后趋于稳定。不同算法之间,LASSO在rsFC作为特征时预测能力较其他算法明显更差,OLS在rsFCS作为特征时预测能力较其他算法明显更差,其它四种算法在两种特征维度下性能类似(见下图),而计算效率方面则RVR算法最佳。不同验证分析表明,这些研究结果具有很好的可重复性,具体程序代码已在线共享(https://github.com/ZaixuCui/Pattern_Regression)。
     
        该研究工作是龚高浪课题组在人脑影像机器学习研究领域的系列工作之一。此前,课题组与舒华教授团队合作,利用SVM分类器结合全脑白质连接的脑影像特征,实现了对阅读障碍与正常发育儿童的83.6%识别率,并揭示了相关贡献区域(阅读相关网络,边缘系统,运动系统等),该工作已在Human Brain Mapping期刊发表(Cui et al., 2016)。此外,课题组与舒华教授团队进一步合作,使用elastic-net回归算法结合全脑灰质体积的脑影像特征,实现了对阅读理解能力的显著性个体化预测,证实该预测模型具有非常好的可推广能力(例如,HCP预测模型可以预测北师大采集的儿童被试阅读能力),并发现男性数据训练的预测模型会低估女性的阅读能力,而女性数据训练的预测模型会高估男性的阅读能力,间接证实了男女性别阅读理解脑机制的差异。该工作已于近期在Cerebral Cortex期刊正式发表(Cui et al., 2018)。
     
        上述研究工作主要由龚高浪教授的博士生崔再续(现University of Pennsylvania博士后)完成, 得到了国家自然科学基金、科技部、北京市科委、北师大等机构的经费资助。

     
    图一:6种不同机器学习回归算法在利用rsFC或rsFCS特征时,预测结果随样本量增加的变化模式。在每个样本量下,呈现了50次抽样情况下的预测率均值与标准差。
     
     
    参考文献 (#第一作者,*通讯作者):
     
    Cui, Z., Gong, G.* (2018) The effect of machine learning regression algorithms and sample size on individualized behavioral prediction with functional connectivity features. NeuroImage: in press. https://doi.org/10.1016/j.neuroimage.2018.06.001
     
    Cui, Z.#, Su, M.#, Li, L., Shu, H.*, Gong, G.* (2018) Individualized Prediction of Reading Comprehension Ability Using Gray Matter Volume. Cerebral Cortex: 28, 1656-72. https://doi.org/10.1093/cercor/bhx061
     
    Cui, Z.#, Xia, Z.#, Su, M., Shu, H.*, Gong, G.* (2016) Disrupted white matter connectivity underlying developmental dyslexia: A machine learning approach. Human Brain Mapping: 37, 1443-58. https://doi.org/10.1002/hbm.23112