1月9日上午9:00,应电子信息与人工智能学院和文理学院的邀请,纽约大学计算机系何河博士做客我校“前沿科学报告”,在电智学院2A-206学术报告厅做了题为“取消学习数据集偏差以增强语言理解能力”的前沿科学报告。电智学院、文理学院部分教师及研究生聆听了报告。报告会由电智学院院长助理孙连山副教授主持。
报告会上,何河博士指出,人工智能技术已经广泛用于自然语言处理且效果显著,但仍存在从基准训练数据到测试数据分布转移的问题。何河博士以形象特征提取和自然语义理解为例,表明在实际应用时,含有虚假关联规律的基准数据会导致机器学习模型犯一些使人感到困惑的错误。何河博士详细介绍了数据集偏差和虚假关联典型类别和表现形式,及其团队近期利用残差拟合来纠正已知偏差的前沿工作,并进一步讨论了数据集偏差、对抗性样本、模型中的社会性偏见之间的联系,以及模型的稳定性和准确率之间的权衡等问题。
与会师生就BERT模型的稳定性、如何自动检测数据集的偏差、模型的可解释性等问题与何河博士进行了热烈的交流和讨论。
新闻小贴士:
何河,女,1989年11月18日生,陕西咸阳人,计算机博士,陕西省作家协会会员。2011年,香港理工大学电子及资讯工程学专业毕业,获甲等荣誉工学士;2011-2016年在马里兰大学获得计算机博士学位。2016年获得Larry S. Davis博士论文奖。2016-2018年在斯坦福大学做博士后。2018-2019年在亚马逊公司任高级应用科学家。2019年秋季起在纽约大学计算机系担任助理教授。研究方向为自然语言处理与机器学习。在ICML, NIPS, ACL等国际会议上发表论文10余篇。
主要研究方向:自然语言处理、机器学习,包括依存分析、实时机器翻译、问答系统和对话系统。