2016年3月16日上午,美国耶鲁老员工物公共卫生系Heping Zhang教授在理化楼401报告厅做了一场关于计算生物和生物信息学的报告,题为“High Dimensional Inference and Prior LASSO”。
随着精准医疗计划的开展,如何对全基因组测序产生的海量数据进行科学处理成为当务之急。癌症患者的全基因组序列数据通常呈现出复杂高维的特性,而分析处理多维数据的复杂度和成本极高,维数膨胀为科学研究带来了重大挑战。 报告中,张教授从全基因组关联分析入手,结合具体实例讲述了利用变量选择进行降维的必要性,并系统阐述了用于变量选择的LASSO算法的基本思想、模型框架、及实现过程。他指出,LASSO算法是一个可以同时进行变量选择和参数估计的统计工具,但是在目前的生物医学研究领域中,当变量很多时,LASSO的使用将受到限制。为进一步减小模型偏差,张教授提出了pLASSO方法,即在LASSO算法的基础上,运用统计检验模型,根据生物先验信息进行变量分类,加入了表示先验信息与模型之间误差的测量值,将先验信息纳入处罚广义线性模型,构建对参数进行有效估计的扰动惩罚回归框架,使得提取的特征集合更合理。
本次报告生动详实,张教授的讲解深入浅出,环环相扣,为各位同学和老师在海量高维数据处理等研究领域提供了新思路。广大师生踊跃发言、积极讨论,深刻感受到了科研规范精神与学术研讨的乐趣。