2020年7月16日下午,西南财经大学林华珍教授线上做客厦门大学经济学科统计与数据科学暑期系列讲座,为师生带来了一场题为“Regression Analysis with individual-specific patterns of missing covariates”的学术讲座。林华珍教授是国际IMS-China、IBS-CHINA及ICSA-China委员,中国现场统计研究会数据科学与人工智能分会理事长,第九届全国工业统计学教学研究会副会长。她的研究方向包括非参数方法、转换模型、生存数据分析、函数型数据分析、潜变量分析、时空数据分析,其中部分研究成果发表在国际统计学四大顶级期刊AoS、JASA、JRSSB、Biometrika和计量经济学顶级期刊JOE及JBES上。经济学院统计系刘婧媛副教授主持了本次讲座。
讲座开始,林教授讲述其研究动机是来源于金融领域的小额贷款问题,即贷款公司要如何通过有限的信息快速决定是否可以给个人提供小额贷款,在实际数据中共有五大类信息,包括个人信用卡、淘宝购物记录、电话使用记录、信贷信息和欺诈记录,需要通过这五类信息来预测贷款者的收入。但信息的缺失比例高达93%,如何基于碎片化的数据进行回归分析是本次讲座的核心主题。接着林教授介绍了五种解决数据缺失问题方法,但针对缺失比例如此高的数据,complete-case analysis使用样本过少可能会导致结果有偏,imputation methods存在计算复杂问题,maximum likelihood需要已知分布且会产生很多复杂参数,robust estimating method不适用于该数据的缺失模式、joint estimating function approach可能产生高维灾难。在已知的方法都可能产生有偏估计的情况下,林教授提出ILSE(Iterative Least Square Estimation)方法,该方法能够提高计算效率并有统计有效性。
林教授基于已有的协变量的信息运用回归模型进行预测,但是在计算观察到的协变量和未观察到的协变量之间的条件期望时,使用参数估计方法则可能存在模型假定错误,使用非参数模型则会导致维数灾难。为克服维数灾难,林教授提出使用变量和参数的真正模型组合来计算条件期望,然后可以直接使用一元非参模型进行估计并运用Nadaraya-Watson estimator替代缺失值。值得一提的是,使用Nadaraya-Watson estimator有效地运用了结构信息。然后林教授将ILSE方法与MLE方法进行比较比较,ILSE方法在数据缺失比例大的情况下更加有优势,因为MLE方法需要计算变量之间的关系,会带来很多不需要的参数,并且在MLE中每一个样本需要单独处理,忽视了数据本身的结构信息。讲述完方法后,林教授向我们介绍了该方法的理论性质和所需要的假设条件,并向我们强调学统计的核心还是要做推断。随后,林教授通过实例进一步比较了不同方法在不同条件设置下的模拟结果,体现了ILSE方法的优良性。
讲座接近尾声,老师和同学们纷纷就讲座内容与林教授展开交流探讨,林教授也对每个问题都进行了认真解答,让老师和同学们对讲座内容有了更加深刻的理解。感谢林教授在百忙之中给大家带来的精彩讲座,让在线师生受益匪浅!
经济学院 2019级硕士 薛滢滢