华为花瓣搜索内容审核项目产品系统

我要开发同款
伊万2026年04月07日
4阅读

技术信息

语言技术
JavaPythonMongoDBSpark
系统类型
Web
行业分类
云计算

作品详情

行业场景

Petal Search是华为自主研发的通用搜索引擎,提供新闻、应用、购物、旅游、本地服务等20多个垂直领域的搜索服务。 [9]其全球用户已超过1亿。 [3] [25]
Petal Search为海外170多个国家和地区用户提供搜索服务,并支持70多种语言。 用户可通过Petal Search应用、手机主屏搜索框、华为浏览器、智慧助手·今天(负一屏)等多个入口进行搜索,获取信息和服务。 其月活跃用户数超过3200万。
Petal Search的搜索内容主要来自第三方合作伙伴,已与3000多家生态合作伙伴达成合作,其中包括欧洲的搜索引擎Qwant以及俄罗斯的搜索引擎Yandex。 2023年3月,Petal Search 推出了AR搜索功能。 该服务主要面向海外市场。

功能介绍

Petal Search同时聚焦本地化搜索,支持全球上百万家酒店预订,涵盖用户的衣食住行,全场景贯通线上搜索与线下服务,为用户碎片化、场景化的搜索提供更好的体验。 2021年10月,Petal Search将在搜索上积累的技术、能力、工具、知识等,开放给电商、新媒体、泛互联网、新零售、智慧政务、出行、金融等10大行业。

项目实现

花瓣搜索(以下简称大搜)内容审核项目大搜安防支撑项目,主要功能是确保搜索结果符合当地法律法规。项目涵盖 URL 网址安全、离线文本审核、在线敏感词过滤、图片审核等多个领域。
我在项目中具体负责如下事务:
1. 作为架构师将项目划分为文本审核、图片审核与网址安全三大领域,整体采用spring-boot+python-flask+容器化技术栈开发,
依托华为云从0到1建设大搜审核能力。
2. 文本审核使用 spring-boot 开发,作为服务端调用 AI 模型对整张网页进行审核并给出对应的标签和置信值,采用容器化部署保
障高可用,支持滚动升级。
3. 图片审核使用 python-flask 开发,作为服务端调用 AI 模型对图片进行审核并给出对应的标签和置信值,采用容器化部署保障
高可用,支持滚动升级。
4. 网址安全使用 spring-boot 开发服务端,采用读写分离架构,写服务对接卡巴斯基、McAfee等安全检测服务,将 url 审核打分
后按照 hash 方式分布式存储于 PIKA 数据库中(360团队封装的 RocksDB ,采用 Redis 协议通信)供读服务使用,读服务则实现
了 url 模糊查询与联想能力,日均可承受千万级调用,SLA99.99%。
5. 敏感词过滤项目使用 spring-boot 开发,采用n-gram 算法(与 hanlp 原理相同)配合敏感词表对在线搜索内容(标题和环绕
文本)进行过滤筛选,敏感词表由管理服务生成,人工可干预存储在 MySQL 中的敏感词库对敏感词进行增删改查,词表发生更新
后会上传至华为云 OBS (一种分布式文件存储服务),提供给过滤服务更新,日均可承受千万级调用,SLA99.99%。
业绩:
从0到1构筑文本审核与图片审核两道防线,保大搜上线至今免于合规问题困扰, 项目所有成员因此荣获“消费者云服务总裁团队
奖”。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论