本数据集来源自公开数据采样:https://www.heywhale.com/home/competition/609cc718ca31cd0017835fdc/content/1
该数据集包含从2011年1月1日到2014年3月31日(3年多)某电商网站的消费者购买行为,用户评分,评论和产品元数据,涵盖15个一级产品类别,987个二级产品类别,近2个百万用户,超过10万种产品和超过6,000万条评论。该数据集中的每个文本评论都包含三个子评论:正面评论,负面评论和整体评论。
- 本数据集包括52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据
- 基于公开电商数据,针对部分字段做出了一定的调整
- 字段信息内容参考如下:
1 . 商品信息.csv
字段 | 数据 | 说明 |
---|---|---|
商品ID | string | 产品 id (PRODUCT_0) |
商品名称 | string | 商品的具体名称,例如“新编家常菜谱(名厨指导版)” |
所属类别 | string | 商品所属类别(从 0 开始,连续编号,从左到右依次表示一级类目、二级类目、三级类目) |
2 . 商品类别列表.csv
字段 | 数据 | 说明 |
---|---|---|
类别ID | string | 类别 id (从 0 开始,连续编号) |
类别名称 | string | 类别名称 |
3 . 训练集
字段 | 数据 | 说明 |
---|---|---|
数据ID | string | 每条数据的唯一id,例如TRAIN_0 |
用户ID | int | 用户 id (从 0 开始,连续编号) |
商品ID | string | 即 products.csv 中的 productId |
评论时间戳 | int | 评分的时间戳 |
评论标题 | string | 评论的标题 |
评论内容 | string | 评论的内容 |
评分 | int | 评分,[1,5] 之间的整数 |
4 .测试集
字段 | 说明 |
---|---|
数据ID | 每条数据的唯一id,例如TRAIN_0 |
用户ID | 用户 id (从 0 开始,连续编号) |
商品ID | 即 products.csv 中的 productId |
评论时间戳 | 评分的时间戳 |
评论标题 | 评论的标题 |
评论内容 | 评论的内容 |
评论