用于将爬取的技术类论文、新闻以及其他数据集进行topic提取、命名实体提取、keyphrase提取、fasttext文本分类等。负责工作如下:
1).技术类论文以及新闻等数据爬取;
2).公司/组织名称、人物名称、地点名称等命名实体提取以及keypharse提取;
3).技术类论文以及新闻数据语料库模型训练以及topic提取;
4).Fasttext模型训练以及文本分类;
涉及技术:Python爬虫/Django/Spacy/Nltk/Keyphrase/Mallet/Topmine/MongoDB/ Postgresql/Elasticsearch/Fasttext等
点击空白处退出提示
评论