• 游客 下载了资源 2023年秋江苏开放大学软件项目管理综合大作业
  • 游客 购买了资源 2023年秋江苏开放大学软件项目管理综合大作业
  • 游客 下载了资源 爱普生Epson LQ-635KII 驱动
  • 游客 下载了资源 2014年河北公务员考试《申论》真题及参考答案
  • 游客 购买了资源 国家开放大学电大会计学概论形考任务1答案
  • u******* 签到打卡,获得1金币奖励
  • 游客 下载了资源 爱普生Epson K105 驱动
  • 游客 下载了资源 爱普生Epson LQ-690C 驱动
  • 游客 下载了资源 佳能Canon PIXMA TS3355 驱动
  • 游客 下载了资源 佳能Canon PIXMA G2060 驱动

2025年春江苏开放大学数据采集与预处理形成性综合大作业

青少年社交网络信息数据预处理

  一、实验目的

1. 掌握数据清洗的典型流程和方法。

2. 掌握数据缺失值和异常值的处理方法。

3. 掌握特征编码和特征标准化的特征处理方法。

  二、实验内容

随着 Facebook、Twitter等社交网络平台的流行,越来越多的青少年用户会在这些平台发布消息。请使用Pandas包和sklearn的预处理模块中的一些类,对青少年社交网络信息数据集进行预处理。

数据集teenager_sns.csv(见附件)是一份包含30000个样本的美国高中生社交网络信息。数据均匀采样于2006年到2009年,每个样本包含40个变量,其中gradyear、gender、age和friends四个变量代表高中生的毕业年份、性别、年龄和好友数等基本信息,剩余36个关键词代表了高中生的5大兴趣类:课外活动、时尚、宗教、浪漫和反社会行为。具体描述如下:

a9487ef099a94659aa4de07ef2661802.jpg

要求:

  1. 数据读取与查看

(1)从本地读取数据,并查看数据的前5行。

(2)利用info()函数从宏观上查看数据集整体情况。

(3)观察数据集,查看gender和age两个变量是否存在缺失值。

(4)调用describe()函数进一步查看age变量整体情况。

(5)重新统计age缺失值数目(青少年的年龄限定在13-20岁)。

  2. 缺失值处理

(1)使用sklearn中的Imputer方法,将数据集teenager_sns中age列利用均值进行填充。

(2)查看性别age一列的缺失值数量。

(3)考虑直接删除性别缺失值。

(4)检查缺失数据。

  3. 异常值处理

(1)对friends列数据进行异常值检测。

(2)剔除friends异常值(大于100左右为异常值)。

(3)查看异常值剔除后的数据分布情况,重置索引。

  4. 标准化

(1)使用sklearn中的StandardScaler方法,对friends列做Z-Score标准化,使得处理后的数据具有固定均值和标准差。

(2)使用sklearn中的MinMaxScaler方法,对friends列做Min-Max标准化,使得处理后的数据取值分布在[0,1]区间上。

  5. 特征编码

(1)使用sklearn中的LabelEncoder方法,对gender列进行特征编码。

(2)尝试对gender一列进行One-Hot编码。(提示:在进行One-Hot编码前,需要先进行数字编码,M编为1,F 编为2,随后用One-Hot编码将1转换为(1,0),2转换为(0,1))

(3)使用sklearn中的Binarizer方法,对friends列进行二值特征离散化。

  6. 离散化

(1)使用Pandas中的cut方法,实现friends列等距离散化。

(2)使用Pandas中的qcut方法,实现friends列等频离散化。

  7. 数据保存

对预处理后的数据进行存储。

  三、作业提交要求

完成实验报告(见附件模板),将源代码和实验报告一起压缩打包提交至学习平台。

资源下载
下载价格10 金币
拼团价格5 金币
已完成0% (共需2人,还需2人)
拼团完成即可下载,未参与的可进入下一轮。
点点赞赏,手留余香 给TA打赏

评论0

请先
支持多种货币
支持多种货币付款,满足您的付款需求
7天无忧退换
安心无忧购物,售后有保障
专业客服服务
百名资深客服7*24h在线服务
发货超时赔付
交易成功极速发货,专业水准保证时效性

站点公告

开放大学课程作业辅导,有需要扫码加微信

显示验证码

社交账号快速登录

微信扫一扫关注
扫码关注后会自动登录