词袋模型只考虑是否出现,而不考虑词与词之间的顺序,导致文本中很多语义关联的丢失。
本项目用Dirichlet分布α中取样生成文档di的主题分布θi(主题分布θi由超参数为α的Dirichlet分布生成),从主题的多项式分布θi中取样生成文档di的第j个词的主题z(i,j),并将其对应的词语分布∳(z,j)由参数为β的Dirichlet分布生成,依次作为一个词是否出现在前一个词的概率。
该项目简化了语料库或数据框与大语言模型(LLMs)的对接过程,通过确定最佳主题数,支持文本分类、摘要生成、评分以及分析等多种任务。