1.源语料采集处理:分析网页特征和结构,使用Python语言编写相应的程序,爬取药品安全相关的网址作为研究的源语言语料。源语料包括药品安全舆情标题,网络地址,时间及内容。2.源语料结构化处理:利用字符串替换,切片操作等方法去除冗余信息,然后通过TextRank算法等提取出部分实体和结构化语料,计算文章内容中每个句子的权重,并将具有重要权重的句子作为文章摘要。3.筛选平台搭建:本文的知识图谱通过neo4j图数据库进行构建,然后采用flask框架来搭建人工筛选平台。
评论