个人介绍
工作经历
2020-07-01 -2025-04-14智新科技普通
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
教育经历
2015-06-30 - 2019-06-30江汉大学文理学院电力系统及其自动化本科
自动控制原理 编程基础
语言
技能

本项目是一个基于Python的电影数据爬虫工具,核心功能包括:自动分析目标网站的Ajax请求接口,动态获取电影列表及详情数据;实现分页数据自动爬取,支持按电影分类、评分区间筛选数据;将爬取到的电影名称、上映年份、评分、导演、演员、简介等信息,以结构化JSON格式保存,方便后续处理和分析;增加了请求间

1.支持对静态网页的目标文本内容进行精准定位与提取;2.可按用户需求过滤、清洗无关信息(如广告、空行、标签);3.支持批量爬取多个同结构静态页面;4.可将提取结果导出为TXT/CSV文件,方便后续使用;5.提供基础的错误处理,应对简单的网络波动与页面结构变化。

1. **面向用户 & 解决问题**(30%) - 面向**设计师、自媒体创作者、壁纸爱好者**,提供**高质量、自动化**的壁纸采集方案。 - 解决**手动下载效率低、图片源分散、版权不清晰**等问题。 2. **核心优势**(50%) - **智能去重**:基于**哈希/相似度算法**,避免重复爬取。 - **自动分类**:按分辨率、风格(如4K、动漫、风景)自动归档。 - **反反爬策略**:动态IP池 + 请求头轮换,稳定采集主流壁纸网站(如Wallhaven、Unsplash)。 - **轻量API支持**(可选):通过Flask提供RESTful接口,方便集成到其他应用。 3. **技术选型**(20%) - **爬虫框架**:Scrapy(分布式)或Requests+BS4(轻量级)。 - **存储方案**:MongoDB(非结构化图片元数据) + 本地/云存储(图片文件)。 - **可视化**(可选):用PyQt/Dash搭建管理后台,查看爬取统计。





