这个是滴滴实习中的另外一个任务,给定一个真实用户的query文本,判断用户的搜索意图是店铺(shop)还是菜品(item)。目标语言有西班牙语、日语和葡语,通过构建数据集然后在自动标注数据机上训练(20 epochs),然后在人工标注的数据集上训练(10 epochs),保存验证集上表现最好的模型,接下来会对模型进行蒸馏,利用Teacher模型Bert的embedding权重初始化student模型的Word embedding ,模型分为单任务和多任务,为了提高匹配的概率,进行规则过滤,对过滤字典和输入的query做额外的数据过滤:去除所有不可见字(包括空格)和特殊字符,日语模型(单蒸馏模型)的F1为91.9%,西语模型(多任务蒸馏模型)F1为93.2%
点击空白处退出提示












评论