开源新闻项目

我要开发同款
不屈之枪2022年08月18日
45阅读

作品详情

1、python scrapy 爬取近百个网站信息,及部分微信公众号百科等信息,包含文字图片视频等,使用pandas处理数据格式并汇总到MySQL,minio数据库中。2、数据挖掘,根据hanlp等分词方法获取新闻文本中的地理位置信息,根据特定算法进行坐标比对,为前端地图可视化提供数据。3、知识图谱构建。对文本信息进行词性标注,句式结构分析,摘要提取,抽取实体关系的知识spo三元组,汇总导入neo4j数据库中。可通过该图谱查询多个实体 词之间的关系,构建关系树。 4、文本分类。根据人工标注的文本数据分类,在经过一系列数据预处理后,首先排除不需要的新闻条目,再进行具体文本分类。使用fasttext方法以及pytorch技 术使用textcnn,lstm,注意力机制等模型进行模型训练,对文本进行分类。因文本来源网站复杂,分类人工标注主观因素,个别分类数据量小等影响,在去除垃圾数 据时预测集F1值可达97%,但是文本具体分类时,分类效果仅到92%。 5、以上所有环境的部署及本地部署等,主要使用docker技术。
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论