NLP

NLP(自然语言处理)是人工智能的一个重要分支,致力于研究计算机与人类自然语言之间的交互,目标在于使机器能够​​理解、解释和生成人类语言​​。其核心任务涵盖基础技术如​​分词、词性标注、句法分析​​,到高级应用如​​机器翻译、情感分析、智能问答、文本摘要和语音识别​​。传统方法依赖统计机器学习与语言学规则,而现代NLP几乎完全由​​深度学习​​驱动:​​词嵌入​​(如Word2Vec)将词语映射为稠密向量,​​循环神经网络(RNN)​​、​​长短期记忆网络(LSTM)​​ 以及​​Transformer架构​​(如BERT、GPT系列)依靠注意力机制彻底改变了序列建模能力,使模型能够捕捉上下文语义的细微差别。预训练大语言模型(LLM)的出现,如ChatGPT,进一步推动NLP进入通用语言理解和生成的新阶段。NLP技术已广泛应用于搜索引擎、智能助理、机器翻译、内容推荐、舆情分析等领域,持续推动人机交互方式的变革,并成为当代AI技术落地最成功的方向之一。
一、多源分布式全网数据采集模块支持三大灵活采集模式,覆盖互联网全域文本数据(新闻、论坛、博客、微博),突破各类反爬限制,实现精准、高效、稳定采集:1.领域关键词采集:用户输入领域关键词+时间范围,分布式实时爬虫全网采集对应领域数据(如「华为产品分析2014.03-2014.05」);2.指定URL采
570NLP人工智能
本工具包含6大核心功能模块:1.**文本处理模块**:支持手动输入/本地文本导入,兼容UTF-8编码,避免中文乱码;2.**多模式分词**:提供标准、极速、NLP三种分词模式,满足不同场景效率/精度需求;3.**自定义词典管理**:支持批量导入行业词汇、动态添加新词,适配专业领域分词需求;4.**停
610Java开发工具
1、具体功能模块:3D数字人接待:可定制形象与展示话术,支持“唤醒词+电话式持续对话”。语音交互:流式ASR实时转写、静默判定自动提交、支持打断/继续监听。知识库问答:多轮对话+检索增强,三级卡片结构(编号/路径/要点/口径)便于维护与口径统一。多模态输出:语音播报同步文字要点,可扩展产品图片/资料
640Java人工智能
主要分为1.边缘计算设备,作为本地的计算核心,部署LLM,Mcp服务,语音交互工作流,深度学习的算法模型检测等。2.控制器,基于Esp32s3过uart串口与边缘计算设备通信,传输数据调用mcp服务控制机器人的休眠状态,功放开启等
560Python机器人
ljq_gsch是一个完整的股票数据采集、存储、分析和预测系统。系统通过BaostockAPI获取股票数据,存储到MySQL数据库,并提供API接口和机器学习预测功能。功能特性1.数据采集股票基本信息历史K线数据(日线、分钟线)财务数据(利润表、资产负债表等)指数成分股数据宏观经济数据2.数据存储M
970Python人工智能
个人主要负责搜索.1.可以搜索地名,地址,地标,商家;2.除了模糊搜索,还可以按类型,范围,区域搜索,以及组合搜索;3.除了可以搜,还可以评论,下单买电影票,订酒店,买团购.
990Java生活旅游
●项目介绍:本项目设计并实现了一个从单张人脸图像预测BMI的端到端系统。我们自行爬取数据并制作数据集,设计并实现了一个轻量级CNN。最终,模型在独立测试集上取得了4.39的平均绝对误差(MAE),并使用Flask框架将其封装成一个可交互的Web应用,完整实现了从数据获取、模型训练到服务部署的全流程。
2100Python人工智能
ChatBi(水晶球)产品系统
本平台聚焦零售场景数据价值挖掘,以“用数自由”为核心目标,整合零售业务数据与查询指标,通过“可视化呈现-智能预测-归因分析-高效交互”全流程能力,助力业务人员快速洞察数据、决策优化,核心功能如下:一、多维度可视化BI展示基于零售核心指标(如销售额、客流量、库存周转率、客单价等),提供5类专业BI控件
2631Python金融
爬虫项目简述产品系统
1. 负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作; 2. 负责互联网资源清洗和结构化,网页转码,网页聚合,信息抽取,数据清洗,网页分类; 3. 负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作; 4. 有票务、股票、证劵等爬虫经验的优先,具备HTML、CSS、JavaScript等前端技术知识,能够解析网页结构; 5. 优化爬虫策略和调度,提升爬取速度、降低资源消耗
1400Flask爬虫
项目内容:构建美国科学研究系统的知识图谱,由NIH和NSF数据构建网络,并用复杂网络理论对合作模式进行挖掘。 项目技术:Schema设计、ER图、Scrapy爬虫、知识图谱、Neo4j、复杂网络分析(节点中心性、聚类系数)、Mediawiki 项目成果:爬取数据后,构建极大连通子图包含52883条12年NIH数据、47949条14年NSF数据,数据融合后总计100832条数据43个特征,并绘制4类实体UML类图、Protege本体图,构建含71489个节点86177个关系的Neo4j知识图谱,并通过复杂网络统计指标分析,揭示跨机构合作模式,通过MediaWiki展示在SMW平台
2500Python知识图谱
项目技术:数据增强(镜像反转、左右各旋转30度、增加噪点、MSRCR处理光线)、迁移学习、ReduceLROnPlateau缩小学习率、Xception/InceptionResNet-V2特征融合 项目成果:从Kaggle中获取999条数据,采用迁移学习及微调模型比较多个深度学习模型的准确率后,得到Xception模型最高仅为95.6%,对模型进行特征融合,模型准确率提升至98.4%
1510Python机器学习
项目技术:随机森林、LSTM、SVR 项目成果:总计1825条数据20个特征,构建了4个新特征总计24个特征,绘制饼状图、箱形图等对特征选择并比较不同特征效果,随机森林、SVR采用R2、MAE、MSE评估指标,LSTM采用MAE、MSE评估指标,比较两个模型的结果后,最终采用LSTM模型,MAE与MSE分别为0.01416,0.0026
1720Python机器学习
项目内容:使用t-sne降维方法对抖音的客户数据进行分析,构建用户画像分析客户对不同物品的偏好程度。 项目技术:t-sne降维、jieba分词、构建用户画像、PyQt5 项目成果:Python连接Mysql数据库获取10w+数据量,经过特征生成、数据预处理、构建模型后,并通过PyQt5搭建前端并程序化,一键生成总计9类不同投放方26个特征的roi及不同客户的商品偏好词云。
1110Pythonnlp
项目内容:使用k-prototypes聚类方法对好大夫在线网站获取的医生数据进行分析,构建用户画像分析互联网医疗行业的分级诊疗情况。 项目技术:Scrapy爬虫、SWOT分析、哈工大LTP分词、K-prototypes聚类、PCA/t-sne降维可视化、构建用户画像、文献调研 项目成果:根据2952447条数据29个特征建立模型,识别8类核心用户群体,为互联网+医疗促进分级诊疗制度的实施提供数据支持
1020Pythonnlp
文档脱敏大师产品系统
AI文档脱敏宝是一款为个人和企业设计的实用工具。当个人或企业需要将含有敏感、保密信息的文档资料外发给第三方时,该插件能够发挥重要作用。它可以借助强大的AI能力,自动识别文档中的敏感信息,并对这些信息进行打码遮盖,从而实现文档的脱敏处理,避免了人工对材料进行脱敏的繁琐与低效。目前,插件支持对图片(png、jpg、jpeg)和PDF类型的资料进行脱敏操作,并且打码处理后的文档会统一输出为PDF格式。 本项目可以集成到企业内部流程中,例如电子资料归档时通过本服务进行脱敏处理,存储一份脱敏件用于对外使用(适合招投标业务场景)。
2250Java在线IT服务网站
医疗相关项目开源项目
1. 用户与权限管理 多角色支持:患者、医生、管理员 用户注册、登录、登出 个人信息管理与修改 权限分级与访问控制 2. 患者端功能 在线预约挂号(选择类型、科室、医生、时间段等) 预约记录查询与取消 检查报告在线查看 历史就诊与随访记录管理 智能问诊与健康建议 3. 医生端功能 预约管理(待确认、已确认、历史预约、日历视图) 预约确认、拒绝、完成、取消、随访等操作 患者列表与详细病历管理 检查报告分析、编辑、打印 智能助手与医患沟通 4. 管理员端功能 用户管理(增删改查、重置密码、角色分配) 系统配置与参数管理 操作日志与系统备份 角色与权限管理 5. 医学影像分析 支持 nii/nii.gz 格式医学影像上传 智能诊断分析(集成深度学习模型) 自动生成诊断报告 影像与报告关联管理 6. 智能助手 医学知识问答 诊断建议与治疗推荐 医患在线沟通与历史消息查询
3350Python网页(Webview)
文本分类模型产品系统
1. 软件面向的行业和业务场景 本软件主要面向法律、投诉处理和文本分类领域,适用于需要对大量文本数据进行自动分类和处理的企业或机构。具体业务场景包括: 投诉分类:对客户投诉内容进行自动分类,识别投诉类型(如商品质量、服务态度等),以便后续处理。 法律文本分析:对法律相关文档进行语义理解和分类,辅助法律工作者快速定位关键信息。 NER(命名实体识别):从文本中提取关键实体(如产品名称、公司名称等),用于进一步的数据分析或知识图谱构建。 2. 项目功能模块及使用者功能 项目分为多个功能模块,每个模块对应特定的功能需求: 数据预处理模块: 功能:清洗、分词、去停用词、生成训练数据集。 使用者功能:提供干净、结构化的数据以供模型训练。 特征工程模块: 功能:将文本转换为数值特征(如词向量、TF-IDF 等)。 使用者功能:通过特征提取提升模型性能。 模型训练模块: 功能:支持多种深度学习模型(如 LSTM、GRU、CNN 和 Transformer)的训练。 使用者功能:根据业务需求选择合适的模型进行训练,并优化超参数。 模型评估模块: 功能:使用交叉验证、混淆矩阵、F1 分数等指标评估模型性能。 使用者功能:监控模型表现,调整模型以提高准确率。 预测模块: 功能:加载训练好的模型,对新输入的文本进行分类预测。 使用者功能:实时获取文本分类结果,辅助决策。 资源监控模块: 功能:监控系统资源(如 CPU、内存)和模型训练过程中的性能指标。 使用者功能:确保模型在有限资源下高效运行。 部署与应用模块: 功能:将模型封装为 RESTful API 或微服务,便于集成到现有系统中。 使用者功能:通过接口调用模型服务,实现自动化文本分类。 3. 项目的技术选型和架构特点 技术选型: 编程语言:Java 和 Python。 深度学习框架: Java:使用 Deeplearning4j 实现 LSTM、GRU 和 CNN 模型。 Python:使用 PyTorch 和 Hugging Face 的 Transformers 库实现 BERT 等 Transformer 模型。 依赖管理:Python 使用 pip-tools 管理依赖,Java 使用 Maven 进行依赖管理。 监控工具:TensorBoard 和 MLflow 用于模型训练监控,psutil 用于系统资源监控。 架构特点: 多语言协作:Java 主要负责模型训练和部署,Python 侧重于数据预处理和高级模型(如 BERT)的训练。 模块化设计:各功能模块独立开发,便于维护和扩展。 分布式部署:支持 Docker 容器化部署,便于在云端或本地环境中运行。 高性能计算:支持 GPU 加速(如 CUDA),提升模型训练和推理效率。 该软件通过结合 Java 和 Python 的优势,提供了从数据预处理到模型部署的完整解决方案,适用于需要高效、精准文本分类的业务场景。
2460Torch机器学习/深度学习
NdcReason 知识图谱推理框架可以帮助企业与个人免费搭建知识图谱和知识自动推理,并在此技术上嵌入大模型LLM实现智能问答应用场景。系统长期维护并已经迭代到4.0版本。经过三年多的工业化成熟度落地,已在银行、交通、医院等行业成功运行实施。 具体详见:www.niudic.com
2401C/C++知识图谱
命名实体识别产品系统
1.面向NLP模型做的基础模型。对于中文语句进行NER,中文命名实体识别。 2.基于训练库对语句进行拆分,得到每个词汇的类型和位置标注。 3.采用BIO和BiLSTM-CRF模型算法。 4.对10000个数据进行测试,准确率可达90%以上。
2570Pythonpython
AI文本检测系统(网页端+PC端) 作品介绍参考要点: 1. 【30%】本方案面向的问题与解决方案 解决当前AI生成文本快速增长带来的内容真实性识别难题 针对中文文本的AI生成特征进行精准识别和分析 提供专业、可靠的AI文本检测解决方案 满足内容审核、学术检测、教育评估等多场景需求 2. 【50%】相比市场常规方案的特点 采用先进的ERNIE-3.0预训练模型,提升中文文本理解能力 创新的分段检测和加权聚合算法,提高长文本检测准确性 提供详细的分析报告和置信度评估,增强结果可解释性 图形化界面设计,让专业检测变得简单易用 支持批量处理和实时检测,提高工作效率 灵活的参数配置,满足不同场景的检测需求 3. 【20%】方案的产品组成和技术选型 核心检测引擎:基于PyTorch深度学习框架 模型架构:ERNIE-3.0预训练模型优化 界面实现:Tkinter图形界面框架 数据处理:Pandas、NumPy等科学计算库 评估系统:scikit-learn机器学习工具库 开发语言:Python 文本分析:自研的智能分段和特征提取算法 这个作品是一个完整的AI文本检测解决方案,通过先进的技术实现和友好的用户界面,为用户提供专业可靠的AI生成文本检测服务。
2520python人工智能
当前共490个项目more
×
寻找源码
源码描述
联系方式
提交