基于Chromium的网络爬虫

我要开发同款
痴迷技术的程序员2020年11月24日
549阅读

作品详情

基于Chromium内核的远程取证(网络爬虫)项目:项目描述:“远程取证”是一款基于Windows平台针对境内外网站、网页邮箱、视频资源存证的产品。实现网页截图、视频资源固定、实时哈希计算等功能。1、 本人在项目中负责用C++和Python语言,通过一套爬取网页数据算法和线程池模型实现对页面资源的下载和固定。其中,爬虫逻辑主要使用Python语言编写,它发送相关指令调用浏览器去下载保存页面资源。浏览器为了能听从和执行爬虫指令,需要用C++语言在Chromium内核中增加和修改相关DevTools协议。根据这套DevTools协议,爬虫就能根据爬取网页数据算法发送指令让浏览器固定网页数据到本地存储和分析。2、 将Chromium内核源码编译出libcef库,将其嵌入到MFC应用程序中,使得MFC应用程序具有浏览器内核功能,主界面用Html页面和JavaScript来美化渲染,弥补MFC应用程序界面美化难和不足的缺陷。3、 实现在Chromium中C++调用Python封装好的下载Ts视频片段模块功能。即使用Python根据m3u8索引文件内容下载Ts视频片段到本地,然后C++端调用这个Python封装好的模块功能后,使用FFMpeg命令行功能合成这些下载好的Ts视频片段成MP4文件。具体实现方式为:在C++端创建多个线程,为每个线程分配1个新建的Python解释器,然后每个线程使用新建的Python解释器调用Python模块提供的下载Ts视频片段功能,当下载完成后,再使用FFMpeg命令行功能合成这些下载好的Ts视频片段成MP4文件。4、 修改FFmpeg官方源码包,即修改Configure、Makefile和*.c等文件,使其编译出Dll动态库,并封装导出接口函数提供给“远程取证”软件下载和固定音视频资源。
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论