2025年秋江苏开放大学数据采集与预处理第二次形考作业

使用Scrapy爬虫框架爬取网页

  一、实验目的

1. 理解Scrapy爬虫框架的架构和工作流程;

2. 掌握使用Scrapy爬虫框架进行爬虫项目开发。

  二、实验内容

创建一个Scrapy项目SunHot,用于爬取阳光热线问政平台的部分信息,主要包括投诉帖子的编号、帖子的URL、帖子的标题及帖子的内容,其网址为:https://wz.sun0769.com/political/index/supervise,具体要求如下:

1. 在项目的/spiders目录下,新建用作爬虫的文件sun.py。

2. 在sun.py文件中,使用parse方法取出每个页面中帖子的链接列表,再从中迭代获取每个帖子,并交给回调函数parse_item处理。

3. 在parse_item方法中,提取上述提到的这些信息。

4. 将爬取到的数据以JSON文档的形式进行输出。

5. 将项目改为使用CrawlSpider类自动爬取。

  三、作业提交要求

完成实验报告(见附件模板),将源代码和实验报告一起压缩打包提交至学习平台。

资源下载
下载价格10
客服QQ:1668639739
点点赞赏,手留余香 给TA打赏

评论0

请先
  • 游客 下载了资源 2023年秋江苏开放大学WEB程序设计形成性综合大作业
  • 游客 下载了资源 2023年秋江苏开放大学WEB程序设计形成性综合大作业
  • 1******* 投稿收入增加5块钱
  • 游客 购买了资源 2023年秋江苏开放大学WEB程序设计形成性综合大作业
  • 游客 下载了资源 2024年秋江苏开放大学JAVA EE企业框架应用与整合060229综合大作业
  • 游客 投稿收入增加1块钱
  • 游客 购买了资源 要求】XX省XX市政府办公厅五处要录用一名副处长,以下是该职位的职位说明书,请对材料中拟录用的职位信息进行了解和分析,梳理该职位要求的相关能力和技能,编制至少五道结构化面试题并简要说明设计理由。 【材料】市政府办公厅职位说明书
  • 游客 下载了资源 2013年新疆公务员录用考试《申论》试卷及参考答案
  • 游客 下载了资源 2024年秋江苏开放大学JAVA EE企业框架应用与整合060229综合大作业
  • 1******* 投稿收入增加5块钱
  • 游客 购买了资源 2024年秋江苏开放大学JAVA EE企业框架应用与整合060229综合大作业
  • u******* 签到打卡,获得1元奖励
  • u******* 签到打卡,获得1元奖励
  • 游客 下载了资源 2026年春江苏开放大学机电设备伺服与变频应用050094请完成综合性大作业
  • 游客 购买了资源 2026年春江苏开放大学机电设备伺服与变频应用050094请完成综合性大作业
  • 1******* 投稿收入增加5块钱
点击浏览器地址栏的⭐图标收藏本页
需要托管,代写作业,论文扫码加微信
显示验证码

社交账号快速登录

微信扫一扫关注
扫码关注后会自动登录