这个比赛的目的是预测所提供的两个问题中哪一个包含有相同意思的两个问题。最基本的事实是由人类专家提供的一组标签。基本真理标签本质上是主观的,因为句子的真正含义永远无法确定地知道。人类标签也是一个“嘈杂”的过程,理性的人不会同意。因此,该数据集上的地面真实标签应该被认为是“知情的”,但不是100%准确的,可能包括不正确的标签。总的来说,我们相信这些标签代表了一个合理的共识,但对于数据集中的个别项目而言,这可能往往不是真的。
请注意:作为一项反作弊措施,Kaggle用计算机生成的问题对测试集进行了补充。这些列不是来自Quora,不计入得分。训练集中的所有问题都是来自Quora的真实例子。
点击空白处退出提示












评论