问答(QA)是自然语言处理社区中一个有吸引力和挑战性的领域。目前已经提出了各种算法,并且构建了不同主题和不同任务形式的基准数据集。问答软件也已经被广泛应用在人们的日常生活中。然而,目前面向QA软件的测试主要是基于参考的形式进行的,测试用例的预期输出(标签)需要在测试之前利用大量的人力进行标注。因此,无论是在软件的使用期间开展即时测试,或是在大量未标记的真实数据上进行扩展的测试都是不可行的,这使得当前问答软件的测试并不灵活和充分。谢晓园教授课题组论文“Testing Your Question Answering Software via Asking Recursively”提出了一种基于三条蜕变关系的问答软件测试方法QAASKER。QAASKER不需要标注标签,而是通过检查问答软件在基于相同知识递归提问的多个问题上的行为,对问答软件进行测试。实验结果表明,在不使用任何预先标注标签的情况下,QAASKER可以在80%以上的有效测试用例中发现错误。在最先进的问答软件上揭示了各种问题,特别是在跨数据集的问题形式上泛化能力的有限。
论文正文详见附件。