1.数据处理和分析后得到想要的信息和精简的数据集
2.可以用在行业对数据集进行分析和处理
点击空白处退出提示
1.数据处理和分析后得到想要的信息和精简的数据集
2.可以用在行业对数据集进行分析和处理
(1)将author字段进行拆分,拆成两个字段,分别是国籍和作者名。(可将翻译作者去掉)
(2)出版日期只保留年份。
(3)将5星-1星五个字段的值进行标准化,归一到0-100区间,即求百分比,保留百分号前的数字,并仅取整数。
(4)对grade字段的值取整,将取整后的值设置为一个新的类别型变量评分级别:gradecls。(即表示9分以上分组、8分以上组,7分以上分组等)
(5)将修改后的数据集进行保存。
(6)求国籍与评分级别(gradecls)构成的二维列联表。并对结果画出分组条形图。
(7)按评分级别(gradecls)对数据集分组,求每个分组内关于grade,comment,fivestars,fourstars,threestars几个字段的描述性统计量,包括平均值,最小值,最大值,标准差,中值,上四分位数,下四分位数,偏度和峰度。并画出分组的关于grade,fivestars和fourstars的箱线图。
(8)按国籍对数据集分组,求每个分组内关于grade,comment,fivestars,fourstars,threestars几个字段的描述性统计量,包括平均值,最小值,最大值,标准差,中值,上四分位数,下四分位数,偏度和峰度。并画出分组的关于grade,fivestars和fourstars的箱线图。
(9)按评分级别(gradecls)分组后,分别画出每组关于fivestars,fourstars,threestars,twostars,onestar的核密度图。(每个星类型对应一个核密度图,图中包含9分和8分两种组别即可)
(10)按国籍分组后,分别画出中、日、美、英四个国家关于fivestars,fourstars,threestars,twostars,onestar的核密度图。(每个星类型对应一个核密度图,图中包含中、日、美、英四个分组)
1.熟悉和使用r语言对数据集进行处理
2.了解了r语言的数据结构
3.了解r语言能做的一些功能和r语言的使用场景



评论