观点总结很 第1篇
复旦大学计算科学技术学院教授 xxx
xxx的报告主要从应用的角度进行了讨论。他主要介绍了在NLP领域关于虚假相关性的两篇论文。目前,各类自然语言处理算法快速发展,在很多任务上甚至超越了人类。但是这些算法在实际应用中的效果却不尽如人意。他们也用归因方法对线上的一些模型做了可视化分析,并且发现数据集合中的偏差可能会引起模型学习到虚假的观点。数据集的偏差广泛存在于NLU任务当中,如否定线索、词汇重叠等。
xxx从《WINOGRANDE:An Adversarial Winograd Schema Challenge at Scale》(2020 AAAI best classic paper)这项工作开始关注数据集中的偏差问题,这项工作侧重于背景知识的分类问题,并且通过实验发现,对数据不做任何处理时,模型的识别效果非常好,但对数据进行偏置消除(Debias)处理之后,模型但识别能力就会降低。
目前NLP领域的偏置消除方法通常采用二阶段方法,xxx也希望能够引进例如前面报告中所提到的一些新的方法进行研究。2022年,他们尝试了从特征角度进行偏置消除。首先,他们工作的大致思路是首先去除特征的相关性,然后对特征进行提纯,以保证与任务相关的特征能够保留下来。他们的实验结果显示出了与原始的BERT-base相比较好的提升。他们的第二项工作则采用了另一种方式,首先,假设在选取特征的过程中尽量保留所有的特征;但对特征的分布进行变化,从而消除相关性。在这种变化下,之前的工作可以得到较大的提升。
观点总结很 第2篇
清华大学教授 xxx
稳定学习针对的是机器学习的基础问题——Out of Distribution(OOD,分布外泛化)问题。在机器学期的基本范式中,存在基本的独立性假设,即xxxst=Ptrain,但在实际应用中,这个假设很难得到保证,此时就会产生OOD问题。OOD问题可以分为xxxst部分已知和xxxst完全未知两种情况,在真实开放的场景应用中,大部分似乎xxxst都是完全未知的。
为了解决这个问题,稳定学习将原本基于假设的Data Fitting 思路,转变为了Finding Invariance (寻找不变性)思路,来寻找不随环境数据变化的最稳定的结构。目前,稳定学习的大致研究路径有两条:一条是找到比不变性更强的结构来保证不变性:根据Peter Bühlmann提出的统计学方式图,很多人认为从统计的角度讲,Causal是最本质的一种结构,如果将Causal的思想融入机器学习的研究,是否可以解决部分机器学习的稳定性问题。
沿着这个思路,学者们从17年开始研究Machine Learning和Causal Inference之间的交叉关系,稳定学习就是在机器学习的框架下,注入一些Causal Inference的底层思想。今年,xxx教授和斯坦福大学的教授Susan Athey一起发表了《Stable learning establishes some common ground between causal inference and machine learning》,对稳定学习的提出和思路做了一个总结性的描述。另一条路径是从变化中寻找不变性(Finding invariance from variance),即根据数据中的异质性寻找数据的不变性。
2022年,学者们对稳定学习有了一些新的思考。比如关于稳定学习的定位问题:稳定学习应该针对OOD问题,输入单独的训练分布,应用多种测试分布,并以稳定性表现为优化目标。由此,很多课题组正在试图解决一些开放性问题,
最后,针对稳定学习的一些外延问题,xxx分享了两个观点:
一、无论是大模型还是OOD Generalization的学习机制,都是为了更好地解决真实、开放环境下的实际问题所探索出的技术路径,二者并不冲突;在OOD Generalization学习机制基础上引入超大规模参数和训练数据,是解决大模型偏见、进一步提升模型智能水平的可能路径之一。
二、关于决策和预测问题,决策的效果取决于预测的准确性,决策的本质是分布外可泛化的预测模型。
观点总结很 第3篇
清华大学计算机系博士生 xxx
xxx报告的方法希望通过引入随机性来解决模型的泛化性的问题。他首先介绍了问题背景,然后解释了什么事协变量偏移泛化以及他们的研究方法,最后给出了相应的实验结果。由于真实数据的异质性和不确定性要求机器模型具有泛化能力,而传统的机器学习模型对训练分布和测试分布独立同分布的假设具有很强的依赖性,而这个假设并不适用于许多现实应用场景,所以就产生了OOD问题。
为了解决这个问题,xxx的工作聚焦于协变量偏移泛化问题。协变量偏移问题认为,测试分布与训练分布的变化仅体现在协变量偏移上,在这样的假设下,理论上人们就可以利用其中的不变性来实现模型在分布变化时的稳定表现。当然,由于真实案例的复杂性,考虑到模型的计算代价,搭建代价等,模型错估几乎是不能避免的。而模型错估和协变量偏移问题,就有可能导致模型在有限的训练集中学到虚假特征。
xxx的团队给出了不变变量集合的定义,并尝试建立基于不变变量集合的稳定预测模型。他们通过重要性样本加权的方法,定义随机加权分布族,通过实验,他们发现,在一定的假设下,不变变量在分布族中的稳定性要好于变化变量。然后他们引入不变性约束来寻找这些不变变量。而在实际应用中,他们提出了RSW的算法,在每一步迭代时,都随机采样部分加权分布,并进行单步优化。通过这样迭代的方式完成学习。他们的方法计算较简单,复杂度低,比较通用,并在模拟实验和实际应用中,表现出了较好的稳定性。
观点总结很 第4篇
北京航空航天大学副教授 xxx
xxx的工作主要考虑解决两个问题:
一、如何学习到高层的子图级别的表示;
二,如何区分这些表示与标签的相关性。
他们采取Diffpool的思路,通过类似pooling的形式学习到不同子图级别的高层语义表示。然后进一步证明了在这种学习下,每张图的语义表示是可以对齐的。接下来他们引入了稳定学习Sample Reweighting的思想,对每个图进行加权,并将这个权重添加到训练的损失函数中进行训练,这个权重就可以用来去除不同高层语义之间的相关性。最后使用去除了相关性的高层语义进行预测。
他们分别对生成的数据集和分子数据集进行了实验。将他们的模型与现有的其他模型结合之后,他们发现,在不同的Correlation degree下,模型的性能都会有一定的提升。并且相关性越大,提升空间越大。这就表明现有的模型很可能学习到了虚假相关性。xxx等人也利用分子数据集做了可视化的解释,并且对图的节点级别的分布外泛化问题也进行了一定的探索。