2020年7月3日上午,经济学科统计与数据科学暑期系列讲座第三讲在线上如期举行。美国宾州州立大学统计系李润泽教授应邀做客,演讲主题是“A Tuning-free Robust and Efficient Approach to High-dimensional Regression”,李润泽教授于2012年获得宾州州立大学杰出教授称号,是2016年度中国科学院特聘客座研究员,也是ASA、IMS和AAAS的会员。他曾担任世界统计学领域顶尖期刊Annals of Statistics的主编,现在是顶尖期刊JASA(Journal of American Statistical Association)等刊物的副主编。他的研究领域包括高维数据的变量选择、纵向数据分析、非参数与半参数建模、统计推断以及统计在工程、社会行为科学研究中的应用,其中有许多研究论文发表在世界顶尖统计学期刊及相关领域最好的学术刊物。本次讲座吸引了中国人民大学统计与大数据研究院朱利平教授、首都师范大学数学科学院崔恒建教授等校外统计学领域的专家教授观看,同时,五百多名经济学科师生也参加了此次讲座。讲座由王亚南经济研究院钟威教授主持。
讲座开始,李教授通过华为创始人任正非的观点提到,统计可以跟很多学科结合在一起,可以说有数据的地方就有统计,意在说明统计学在数据科学和人工智能领域中的重要作用,紧接着他介绍了统计学在数据科学中一些最基础的研究方向,包括估计、变量选择和特征筛选等等,之后李教授就高维数据中的参数估计问题进行了重点分析和讲解。他指出,在高维数据下,当变量个数远大于样本量时,通常的做法是在回归方法中引入带L1范数的Lasso限制,以此进行变量选择或系数压缩。然而在实际应用中,通过交叉验证选择的Lasso调节参数与理论值存在一定的差距,对此,已有研究提出的方法主要包括Scaled Lasso、Square-root Lasso以及TREX等等。进一步地,当存在重尾随机误差时,如何确保回归方法的鲁棒性,同时对正态随机误差保持较高效率。为了解决以上两个问题,李教授介绍了一种新的高维回归方法—Rank-Lasso,该方法使用一个易于模拟的调节参数,自动适应未知的随机误差分布和设计矩阵,有效克服了Lasso调节参数选择的困难,同时它还具有响应变量进行尺度变换时的等变性以及易于求解(可转化为线性规划问题有效求解)等许多优良的性质,李教授对此进行了一一解释证明。随后,李教授通过三个实例进一步比较了不同方法在不同条件设置下的模拟结果。
讲座接近尾声,参加老师和同学们纷纷就讲座内容展开与李教授交流探讨,李教授对每个问题都进行了耐心详实地解答,热烈的讨论使大家对讲座内容有了更加深刻地理解。最后,在大家的意犹未尽中讲座圆满结束,感谢李教授于百忙之中给大家带来的精彩讲座,让在线师生收获颇丰!
SOE 2019级硕 周文洁