ContentExtractor 网页正文抽取算法_开源项目-程序员客栈

开源地址
https://github.com/hfut-dmic/ContentExtractor授权协议
GPLv2

简介

CotetExtractor是一个开源的网页正文抽取工具，用JAVA实现，具有非常高的抽取精度。

项目地址转移

项目已和WebCollector合并，当前项目为老版本CotetExtractor,请前往WebCollector项目查看CotetExtractor的最新版本源码和API。

教程(只适用于老版本，新版本请前往WebCollector)

CotetExtractor的接口非常简单，用户可以根据网页的url，或者网页的html，来进行网页正文抽取：

根据url，抽取网页的正文：

public static void mai(Strig[] args) throws Exceptio { Strig cotet=CotetExtractor.getCotetByURL("https://ews. xihuaet.com/world/2014-11/02/c_127166728.htm"); System.out.pritl(cotet);}

根据html，抽取网页的正文：

public static void mai(Strig[] args) throws Exceptio { Strig html="获取到的html源码"; Strig cotet=CotetExtractor.getCotetByHtml(html); System.out.pritl(cotet);}

导入项目(只适用于老版本，新版本请前往WebCollector)

从CotetExtractor的github主页https://github.com/hfut-dmic/CotetExtractor上下载CotetExtractor-{版本号}-bi.zip,将解压后得到的jar包全部放到工程的buildpath即可。

CotetExtractor由合肥工业大学dmic团队开发

Git@OSC：https://git.oschia.et/webcollector/CotetExtractor

简介 ContentExtractor 是一个开源的网页正文抽取工具，用JAVA实现，具有非常高的抽取精度。项目地址转移项目已和WebCollector合并，当前项目为老版本ContentE...

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

ContentExtractor 网页正文抽取算法开源项目

技术信息

作品详情

功能介绍

重点城市程序员兼职推荐

重点岗位程序员兼职推荐