小红书用户笔记采集器_系统开发案例-程序员客栈

技术信息

语言技术
Python系统类型
Windows行业分类
项目任务

作品详情

行业场景

适用于需要对小红书平台内容进行批量采集与归档的场景，例如：自媒体从业者用于备份自己的笔记素材；数据分析人员用于采集用户发布的笔记数据，进行内容分析、舆情监控或竞品调研；运营团队用于监测竞品账号的内容更新，辅助制定内容策略；学术研究者用于采集社交媒体样本，进行传播学或社会学研究。通过自动化采集笔记中的视频和图片，为后续的内容再利用、数据分析提供原始素材。

功能介绍

1.无缝对接浏览器登录态：通过连接已开启远程调试端口的 Edge 浏览器，复用用户登录状态，无需手动输入验证码或 Cookie。
2.自动抓取用户笔记列表：访问目标用户主页，通过监听网络响应自动提取所有笔记的 noteId 和 xsec_token。
3.支持动态加载：通过滚动页面模拟用户操作，触发异步加载，获取全部笔记数据。
4.多类型媒体下载：遍历笔记列表，访问详情页，自动识别内容类型（视频/图片），提取媒体 URL 并下载。
5.本地存储：将下载的媒体文件按顺序保存在 MP4 文件夹中，视频保存为 .mp4，图片保存为 .jpg。

项目实现

1.调试浏览器启动：使用 subprocess 启动 Edge 浏览器并开启 --remote-debugging-port=9222，使 Playwright 能够通过 CDP（Chrome DevTools Protocol）连接和控制浏览器。
2.数据采集：利用 Playwright 的 connect_over_cdp 连接到已打开的浏览器，获取当前页面上下文。注册 response 事件监听器，在回调函数中判断响应 URL 是否匹配用户主页（/user/profile/）或 API 接口（/api/sns/web/v1/user_posted），通过正则表达式或 JSON 解析提取笔记 ID 和 token。通过多次执行页面滚动（document.documentElement.scrollTop）并等待加载，确保所有笔记被捕获。
3.媒体下载：对每个笔记，构造详情页 URL 并附带 xsec_token 参数，使用 requests 发起 HTTP 请求获取 HTML 内容。通过正则表达式从 HTML 中提取媒体字段：视频优先匹配 backupUrls，图片匹配 urlDefault。将提取的 URL 进行 JSON 反序列化，获得真实下载链接，再用 requests 下载并写入本地文件。
异常处理：代码包含 try...except 块处理媒体类型解析失败的情况，并确保浏览器资源被正确关闭（browser.close()）以及浏览器进程被终止（b.terminate()）。