接口开发工作:由于数据库中的数据格式对人的观感并不友好,需要有一个txt和excel文件互换的功能来实现内嵌的文件转换,另外,将excel上传到数据库时对数据有一个规范化检测(比如列名是否存在,个别必空字段、必填字段、字段长度限制,时间格式规范是否合法)并给出具体规范修改反馈,通过Tkinter实现了内库数据导入导出外接工具的开发;
语义推荐工作:低碳技术数据库建设需要相似技术推荐,复现了两种方法实现下游相似度计算任务。第一种方法是基于spacy和word2vec,先提取文档中的动词、名词和形容词,并将词语变形归一作为文档的文本信息,再借助glove向量提取文本向量特征,最后计算文本相似度。另一种方法先做了数据预处理,通过KeyBERT提取数据摘要,喂入Bert模型中的malteos/scincl预训练模型实现相似度计算。两种方法的输出效果超过关键词检索,得到业务认可。
点击空白处退出提示
评论