适用于需要对小红书平台内容进行批量采集与归档的场景,例如:自媒体从业者用于备份自己的笔记素材;数据分析人员用于采集用户发布的笔记数据,进行内容分析、舆情监控或竞品调研;运营团队用于监测竞品账号的内容更新,辅助制定内容策略;学术研究者用于采集社交媒体样本,进行传播学或社会学研究。通过自动化采集笔记中的视频和图片,为后续的内容再利用、数据分析提供原始素材。
点击空白处退出提示
适用于需要对小红书平台内容进行批量采集与归档的场景,例如:自媒体从业者用于备份自己的笔记素材;数据分析人员用于采集用户发布的笔记数据,进行内容分析、舆情监控或竞品调研;运营团队用于监测竞品账号的内容更新,辅助制定内容策略;学术研究者用于采集社交媒体样本,进行传播学或社会学研究。通过自动化采集笔记中的视频和图片,为后续的内容再利用、数据分析提供原始素材。
1.无缝对接浏览器登录态:通过连接已开启远程调试端口的 Edge 浏览器,复用用户登录状态,无需手动输入验证码或 Cookie。
2.自动抓取用户笔记列表:访问目标用户主页,通过监听网络响应自动提取所有笔记的 noteId 和 xsec_token。
3.支持动态加载:通过滚动页面模拟用户操作,触发异步加载,获取全部笔记数据。
4.多类型媒体下载:遍历笔记列表,访问详情页,自动识别内容类型(视频/图片),提取媒体 URL 并下载。
5.本地存储:将下载的媒体文件按顺序保存在 MP4 文件夹中,视频保存为 .mp4,图片保存为 .jpg。
1.调试浏览器启动:使用 subprocess 启动 Edge 浏览器并开启 --remote-debugging-port=9222,使 Playwright 能够通过 CDP(Chrome DevTools Protocol)连接和控制浏览器。
2.数据采集:利用 Playwright 的 connect_over_cdp 连接到已打开的浏览器,获取当前页面上下文。注册 response 事件监听器,在回调函数中判断响应 URL 是否匹配用户主页(/user/profile/)或 API 接口(/api/sns/web/v1/user_posted),通过正则表达式或 JSON 解析提取笔记 ID 和 token。通过多次执行页面滚动(document.documentElement.scrollTop)并等待加载,确保所有笔记被捕获。
3.媒体下载:对每个笔记,构造详情页 URL 并附带 xsec_token 参数,使用 requests 发起 HTTP 请求获取 HTML 内容。通过正则表达式从 HTML 中提取媒体字段:视频优先匹配 backupUrls,图片匹配 urlDefault。将提取的 URL 进行 JSON 反序列化,获得真实下载链接,再用 requests 下载并写入本地文件。
异常处理:代码包含 try...except 块处理媒体类型解析失败的情况,并确保浏览器资源被正确关闭(browser.close())以及浏览器进程被终止(b.terminate())。





评论