日前,第34届国际人工智能会议(AAAI 2020)在美国纽约召开,我校计算机科学与技术学院/人工智能学院突破性入选5篇论文。论文第一作者均为研究生,指导老师陈松灿、张道强、谭晓阳、黄圣君等均为江苏省青蓝工程科技创新团队成员。
AAAI(美国人工智能协会)是人工智能领域主要学术组织之一,AAAI大会是人工智能领域顶级会议(CCF A类),本次会议录用率为20.6%。我校入选的论文包含了强化学习、主动学习、脑影像分析等人工智能热门方向,部分工作与腾讯微信数据质量团队、阿里巴巴视频推荐团队等合作,结合实际应用问题开展研究并取得重要进展。由于疫情原因,作者未能赴纽约参加会议,通过视频方式远程报告了论文。
论文《Active Learning with Query Generation for Cost-Effective Text Classification》为与腾讯微信数据质量团队开展合作完成的一项成果。第一作者颜逸凡同学曾入选2018年度腾讯犀牛鸟精英人才培养计划(全国共58人入选)。该工作针对微信“看一看”功能中文本标注代价高的问题,提出了一种基于样本生成的主动学习方法,避免了对大规模未标记数据的重复扫描,能够直接生成最具有信息量和多样性的样本,从而快速提高模型性能,并能适用于大规模任务。同时,该方法利用稀疏重构技术对长文本进行近似表达,使得标注者无需阅读整个文本,仅基于少量概括性词语就能进行高效标注,显著降低了标注成本。在模拟数据的可视化结果中,可以观察到所提方法生成的样本均匀分布在分类边界,表明其既有丰富的信息量,同时又能有效蕴含数据的整体分布信息。在真实数据集中的实验结果也表明该方法相比传统方法具有显著优势。
论文《Uncertainty Aware Graph Gaussian Process for Semi-Supervised Learning》为与阿里巴巴视频推荐团队合作完成。这也是双方继在优酷视频推荐实际任务中取得显著进展后,再次合作发表顶级会议论文。该工作主要面向标记数据不足的图网络数据提出了一种新的半监督学习方法。在很多现实任务中,数据以图网络的形式存在,在基于图的半监督学习中仅有部分节点有标记,需要依靠图的已标记节点构建模型预测其余未标记节点的标记。利用图的结构关系可以辅助模型学习更多的数据信息。该工作基于稀疏变分高斯过程提出了从特征聚合和光滑性假设两方面来利用节点关系:一方面特征聚合即基于图网络传播节点特征,同时聚合节点原始输入特征和高斯过程推断变量;另一方面对于聚合后所得概率变量施加对称马氏距离约束。实验结果显示提出的方法能够有效利用未标记数据提升模型性能。
论文《Partial Multi-label Learning with Noisy Label Identification》提出了一种基于噪声标记检测的偏多标记学习方法,该方法针对实际应用中标记信息不精确的问题,基于样本的特征表示学习一个分类器和一个检测器,同时进行多标记的分类与对噪声标记的检测。大量的实验结果表明,该方法在多项评价指标上均显著优于已有偏多标记学习算法。
论文《SMIX(λ):Enhancing Centralized Value Functions for Cooperative Multi-Agent Reinforcement Learning》提出了一种异策略的合作场景下的多智能体强化学习方法,SMIX(λ)。SMIX(λ)通过放松已有算法中的过强假设来学习到更优的策略,利用多步奖励来更准确的估计值函数,并且采用经验回放机制来提高学习的效率。该算法不但实现简单,能够有效避免多智能联合动作空间的维度灾难问题,而且理论上具有较好的收敛性质。在星际争霸微操作环境(该环境提供不同的多对多战斗场景)上的实验表明,SMIX(λ)算法优于几种先进的中心训练分散执行的方法。
论文《Graph-Based Decoding Model for Functional Alignment of Unaligned fMRI Data》针对脑解码研究中,现有的功能性校准方法是基于时序对齐的fMRI数据集进行建模优化,导致其不能很好地处理现今存在的各种非时序对齐的数据集。非时序对齐的情况包括,一些受试者可能缺乏对某些刺激信号的反应,或者不同的被试者可能接收不同顺序的刺激信号。为了解决这一问题,该工作借助跨被试者图矩阵对不同被试者的fMRI样本之间的差异或相似性进行度量,从而能够描述数据集的非时序特征,并以此为基础提出一种更具柔性的算法框架,以适应当今fMRI数据集的多样性。同时,为了处理fMRI的高维度以及成像技术发展所带来的大样本问题,基于核方法对每个被试者的新特征空间施加一个低维约束,并基于理论分析提出一套简单可行的优化方案,从而降低所需的计算复杂度。