使用r语言对豆瓣书籍数据集进行处理与统计分析产品系统

我要开发同款
hehz2026年06月21日
9阅读

技术信息

语言技术
R
系统类型
Windows
行业分类
低代码

作品详情

行业场景

1.数据处理和分析后得到想要的信息和精简的数据集
2.可以用在行业对数据集进行分析和处理

功能介绍

(1)将author字段进行拆分,拆成两个字段,分别是国籍和作者名。(可将翻译作者去掉)
(2)出版日期只保留年份。
(3)将5星-1星五个字段的值进行标准化,归一到0-100区间,即求百分比,保留百分号前的数字,并仅取整数。
(4)对grade字段的值取整,将取整后的值设置为一个新的类别型变量评分级别:gradecls。(即表示9分以上分组、8分以上组,7分以上分组等)
(5)将修改后的数据集进行保存。
(6)求国籍与评分级别(gradecls)构成的二维列联表。并对结果画出分组条形图。
(7)按评分级别(gradecls)对数据集分组,求每个分组内关于grade,comment,fivestars,fourstars,threestars几个字段的描述性统计量,包括平均值,最小值,最大值,标准差,中值,上四分位数,下四分位数,偏度和峰度。并画出分组的关于grade,fivestars和fourstars的箱线图。
(8)按国籍对数据集分组,求每个分组内关于grade,comment,fivestars,fourstars,threestars几个字段的描述性统计量,包括平均值,最小值,最大值,标准差,中值,上四分位数,下四分位数,偏度和峰度。并画出分组的关于grade,fivestars和fourstars的箱线图。
(9)按评分级别(gradecls)分组后,分别画出每组关于fivestars,fourstars,threestars,twostars,onestar的核密度图。(每个星类型对应一个核密度图,图中包含9分和8分两种组别即可)
(10)按国籍分组后,分别画出中、日、美、英四个国家关于fivestars,fourstars,threestars,twostars,onestar的核密度图。(每个星类型对应一个核密度图,图中包含中、日、美、英四个分组)

项目实现

1.熟悉和使用r语言对数据集进行处理
2.了解了r语言的数据结构
3.了解r语言能做的一些功能和r语言的使用场景

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论