LDA模型词序研究开源项目

我要开发同款
RaymondREN2025年05月28日
80阅读

技术信息

语言技术
Python
开源地址
https://www.gitlink.org.cn/xDong/LDA
授权协议
GPL许可

功能介绍

词袋模型只考虑是否出现,而不考虑词与词之间的顺序,导致文本中很多语义关联的丢失。
本项目用Dirichlet分布α中取样生成文档di的主题分布θi(主题分布θi由超参数为α的Dirichlet分布生成),从主题的多项式分布θi中取样生成文档di的第j个词的主题z(i,j),并将其对应的词语分布∳(z,j)由参数为β的Dirichlet分布生成,依次作为一个词是否出现在前一个词的概率。
该项目简化了语料库或数据框与大语言模型(LLMs)的对接过程,通过确定最佳主题数,支持文本分类、摘要生成、评分以及分析等多种任务。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论