Analysis and Classification of Texts in Product Re

语言技术
Python系统类型
算法模型行业分类
机器深度学习开源地址
https://github.com/JingChen0627/TFM授权协议
MIT许可

1. 数据加载与预处理模块
功能：读取 JSONL 格式的原始评论数据，提取评论文本和评分。
关键步骤：将评分 1–2 星映射为“负面”（negative），3–5 星映射为“非负面”（non-negative）。进行文本清洗（如正则匹配单词、去除标点）。
计算文本统计特征（词数、句长、词频、词汇量等）。生成词云等可视化分析。
2. 数据增强与类别平衡模块
功能：解决数据集中负面样本远少于非负面样本的类别不平衡问题。
关键方法：少数类增强：使用 BERT 的 ContextualWordEmbsAug 方法生成语义一致的负面样本变体。多数类欠采样：随机减少非负面样本数量，使类别分布更均衡。类别权重：在损失函数中为少数类赋予更高权重，提升模型对其的关注度。
3. BERT 模型微调与训练模块
功能：基于 Hugging Face 的 BertForSequenceClassification 进行二分类任务微调。
关键配置：使用 BertTokenizer 进行子词分词，序列长度固定为 128。使用加权交叉熵损失函数（Weighted Cross-Entropy Loss）。
超参数设置：学习率 2e-5，批次大小 16，训练 5 个 epoch。采用 StratifiedShuffleSplit 保证训练/验证/测试集类别分布一致。
4. 模型评估与结果分析模块
功能：在测试集上评估模型性能，并分析误分类情况。
评估指标：
精确率（Precision）、召回率（Recall）、F1 分数（包括宏平均和加权平均）、混淆矩阵（Confusion Matrix）。
对比测试集与全数据集上的性能差异，分析“乐观偏差”。
5. 全数据集预测与输出模块
功能：对原始全部评论数据进行批量推理，生成预测标签。输出格式：将预测结果写回 JSONL 文件，便于后续分析和情感分布统计。

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

Analysis and Classification of Texts in Product Re开源项目

技术信息

功能介绍

示例图片

重点城市程序员兼职推荐

重点岗位程序员兼职推荐