整体结构可以分为实体识别和关系/属性抽取两部分,流程可以分为6步,其中2、3和4步会重复执行多次。
第1步:通过Hanlp和规则匹配的方式抽取部分实体
第2步:采用远程监督方法,用种子知识图谱对齐无标数据得到标出了实体的数据
第3步:用上一步得到的标出了实体的数据训练模型
第4步:用上一步训练的实体识别模型抽取无标数据中的实体,并将抽取出的实体加入到种子知识图谱中,增加种子知识图谱的规模,重复2,3,4步多次不断使种子知识图谱规则不断扩大
第5步:通过重复2,3,4步多次后得到扩展了大量实体的知识图谱,用种子知识图谱对齐无标数据,将无标数据中的实体都找出来
第6步:通过上一步得到无标数据中的实体后,使用规则的方法判断实体间的关系和属性
点击空白处退出提示
评论