NLP

NLP(自然语言处理)是人工智能的一个重要分支,致力于研究计算机与人类自然语言之间的交互,目标在于使机器能够​​理解、解释和生成人类语言​​。其核心任务涵盖基础技术如​​分词、词性标注、句法分析​​,到高级应用如​​机器翻译、情感分析、智能问答、文本摘要和语音识别​​。传统方法依赖统计机器学习与语言学规则,而现代NLP几乎完全由​​深度学习​​驱动:​​词嵌入​​(如Word2Vec)将词语映射为稠密向量,​​循环神经网络(RNN)​​、​​长短期记忆网络(LSTM)​​ 以及​​Transformer架构​​(如BERT、GPT系列)依靠注意力机制彻底改变了序列建模能力,使模型能够捕捉上下文语义的细微差别。预训练大语言模型(LLM)的出现,如ChatGPT,进一步推动NLP进入通用语言理解和生成的新阶段。NLP技术已广泛应用于搜索引擎、智能助理、机器翻译、内容推荐、舆情分析等领域,持续推动人机交互方式的变革,并成为当代AI技术落地最成功的方向之一。
●项目介绍:本项目设计并实现了一个从单张人脸图像预测BMI的端到端系统。我们自行爬取数据并制作数据集,设计并实现了一个轻量级CNN。最终,模型在独立测试集上取得了4.39的平均绝对误差(MAE),并使用Flask框架将其封装成一个可交互的Web应用,完整实现了从数据获取、模型训练到服务部署的全流程。
440Python人工智能
ChatBi(水晶球)产品系统
本平台聚焦零售场景数据价值挖掘,以“用数自由”为核心目标,整合零售业务数据与查询指标,通过“可视化呈现-智能预测-归因分析-高效交互”全流程能力,助力业务人员快速洞察数据、决策优化,核心功能如下:一、多维度可视化BI展示基于零售核心指标(如销售额、客流量、库存周转率、客单价等),提供5类专业BI控件
941Python金融
爬虫项目简述源文件源码
1. 负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作; 2. 负责互联网资源清洗和结构化,网页转码,网页聚合,信息抽取,数据清洗,网页分类; 3. 负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作; 4. 有票务、股票、证劵等爬虫经验的优先,具备HTML、CSS、JavaScript等前端技术知识,能够解析网页结构; 5. 优化爬虫策略和调度,提升爬取速度、降低资源消耗
600Flask爬虫
项目内容:构建美国科学研究系统的知识图谱,由NIH和NSF数据构建网络,并用复杂网络理论对合作模式进行挖掘。 项目技术:Schema设计、ER图、Scrapy爬虫、知识图谱、Neo4j、复杂网络分析(节点中心性、聚类系数)、Mediawiki 项目成果:爬取数据后,构建极大连通子图包含52883条12年NIH数据、47949条14年NSF数据,数据融合后总计100832条数据43个特征,并绘制4类实体UML类图、Protege本体图,构建含71489个节点86177个关系的Neo4j知识图谱,并通过复杂网络统计指标分析,揭示跨机构合作模式,通过MediaWiki展示在SMW平台
1360Python知识图谱
项目技术:数据增强(镜像反转、左右各旋转30度、增加噪点、MSRCR处理光线)、迁移学习、ReduceLROnPlateau缩小学习率、Xception/InceptionResNet-V2特征融合 项目成果:从Kaggle中获取999条数据,采用迁移学习及微调模型比较多个深度学习模型的准确率后,得到Xception模型最高仅为95.6%,对模型进行特征融合,模型准确率提升至98.4%
630Python机器学习
项目技术:随机森林、LSTM、SVR 项目成果:总计1825条数据20个特征,构建了4个新特征总计24个特征,绘制饼状图、箱形图等对特征选择并比较不同特征效果,随机森林、SVR采用R2、MAE、MSE评估指标,LSTM采用MAE、MSE评估指标,比较两个模型的结果后,最终采用LSTM模型,MAE与MSE分别为0.01416,0.0026
640Python机器学习
项目内容:使用t-sne降维方法对抖音的客户数据进行分析,构建用户画像分析客户对不同物品的偏好程度。 项目技术:t-sne降维、jieba分词、构建用户画像、PyQt5 项目成果:Python连接Mysql数据库获取10w+数据量,经过特征生成、数据预处理、构建模型后,并通过PyQt5搭建前端并程序化,一键生成总计9类不同投放方26个特征的roi及不同客户的商品偏好词云。
460Pythonnlp
项目内容:使用k-prototypes聚类方法对好大夫在线网站获取的医生数据进行分析,构建用户画像分析互联网医疗行业的分级诊疗情况。 项目技术:Scrapy爬虫、SWOT分析、哈工大LTP分词、K-prototypes聚类、PCA/t-sne降维可视化、构建用户画像、文献调研 项目成果:根据2952447条数据29个特征建立模型,识别8类核心用户群体,为互联网+医疗促进分级诊疗制度的实施提供数据支持
410Pythonnlp
文档脱敏大师产品系统
AI文档脱敏宝是一款为个人和企业设计的实用工具。当个人或企业需要将含有敏感、保密信息的文档资料外发给第三方时,该插件能够发挥重要作用。它可以借助强大的AI能力,自动识别文档中的敏感信息,并对这些信息进行打码遮盖,从而实现文档的脱敏处理,避免了人工对材料进行脱敏的繁琐与低效。目前,插件支持对图片(png、jpg、jpeg)和PDF类型的资料进行脱敏操作,并且打码处理后的文档会统一输出为PDF格式。 本项目可以集成到企业内部流程中,例如电子资料归档时通过本服务进行脱敏处理,存储一份脱敏件用于对外使用(适合招投标业务场景)。
850Java在线IT服务网站
医疗相关项目开源项目
1. 用户与权限管理 多角色支持:患者、医生、管理员 用户注册、登录、登出 个人信息管理与修改 权限分级与访问控制 2. 患者端功能 在线预约挂号(选择类型、科室、医生、时间段等) 预约记录查询与取消 检查报告在线查看 历史就诊与随访记录管理 智能问诊与健康建议 3. 医生端功能 预约管理(待确认、已确认、历史预约、日历视图) 预约确认、拒绝、完成、取消、随访等操作 患者列表与详细病历管理 检查报告分析、编辑、打印 智能助手与医患沟通 4. 管理员端功能 用户管理(增删改查、重置密码、角色分配) 系统配置与参数管理 操作日志与系统备份 角色与权限管理 5. 医学影像分析 支持 nii/nii.gz 格式医学影像上传 智能诊断分析(集成深度学习模型) 自动生成诊断报告 影像与报告关联管理 6. 智能助手 医学知识问答 诊断建议与治疗推荐 医患在线沟通与历史消息查询
2790Python网页(Webview)
文本分类模型源文件源码
1. 软件面向的行业和业务场景 本软件主要面向法律、投诉处理和文本分类领域,适用于需要对大量文本数据进行自动分类和处理的企业或机构。具体业务场景包括: 投诉分类:对客户投诉内容进行自动分类,识别投诉类型(如商品质量、服务态度等),以便后续处理。 法律文本分析:对法律相关文档进行语义理解和分类,辅助法律工作者快速定位关键信息。 NER(命名实体识别):从文本中提取关键实体(如产品名称、公司名称等),用于进一步的数据分析或知识图谱构建。 2. 项目功能模块及使用者功能 项目分为多个功能模块,每个模块对应特定的功能需求: 数据预处理模块: 功能:清洗、分词、去停用词、生成训练数据集。 使用者功能:提供干净、结构化的数据以供模型训练。 特征工程模块: 功能:将文本转换为数值特征(如词向量、TF-IDF 等)。 使用者功能:通过特征提取提升模型性能。 模型训练模块: 功能:支持多种深度学习模型(如 LSTM、GRU、CNN 和 Transformer)的训练。 使用者功能:根据业务需求选择合适的模型进行训练,并优化超参数。 模型评估模块: 功能:使用交叉验证、混淆矩阵、F1 分数等指标评估模型性能。 使用者功能:监控模型表现,调整模型以提高准确率。 预测模块: 功能:加载训练好的模型,对新输入的文本进行分类预测。 使用者功能:实时获取文本分类结果,辅助决策。 资源监控模块: 功能:监控系统资源(如 CPU、内存)和模型训练过程中的性能指标。 使用者功能:确保模型在有限资源下高效运行。 部署与应用模块: 功能:将模型封装为 RESTful API 或微服务,便于集成到现有系统中。 使用者功能:通过接口调用模型服务,实现自动化文本分类。 3. 项目的技术选型和架构特点 技术选型: 编程语言:Java 和 Python。 深度学习框架: Java:使用 Deeplearning4j 实现 LSTM、GRU 和 CNN 模型。 Python:使用 PyTorch 和 Hugging Face 的 Transformers 库实现 BERT 等 Transformer 模型。 依赖管理:Python 使用 pip-tools 管理依赖,Java 使用 Maven 进行依赖管理。 监控工具:TensorBoard 和 MLflow 用于模型训练监控,psutil 用于系统资源监控。 架构特点: 多语言协作:Java 主要负责模型训练和部署,Python 侧重于数据预处理和高级模型(如 BERT)的训练。 模块化设计:各功能模块独立开发,便于维护和扩展。 分布式部署:支持 Docker 容器化部署,便于在云端或本地环境中运行。 高性能计算:支持 GPU 加速(如 CUDA),提升模型训练和推理效率。 该软件通过结合 Java 和 Python 的优势,提供了从数据预处理到模型部署的完整解决方案,适用于需要高效、精准文本分类的业务场景。
1230Torch机器学习/深度学习10000.00元
NdcReason 知识图谱推理框架可以帮助企业与个人免费搭建知识图谱和知识自动推理,并在此技术上嵌入大模型LLM实现智能问答应用场景。系统长期维护并已经迭代到4.0版本。经过三年多的工业化成熟度落地,已在银行、交通、医院等行业成功运行实施。 具体详见:www.niudic.com
1831C/C++知识图谱
命名实体识别源文件源码
1.面向NLP模型做的基础模型。对于中文语句进行NER,中文命名实体识别。 2.基于训练库对语句进行拆分,得到每个词汇的类型和位置标注。 3.采用BIO和BiLSTM-CRF模型算法。 4.对10000个数据进行测试,准确率可达90%以上。
1790Pythonpython1000.00元
AI文本检测系统(网页端+PC端) 作品介绍参考要点: 1. 【30%】本方案面向的问题与解决方案 解决当前AI生成文本快速增长带来的内容真实性识别难题 针对中文文本的AI生成特征进行精准识别和分析 提供专业、可靠的AI文本检测解决方案 满足内容审核、学术检测、教育评估等多场景需求 2. 【50%】相比市场常规方案的特点 采用先进的ERNIE-3.0预训练模型,提升中文文本理解能力 创新的分段检测和加权聚合算法,提高长文本检测准确性 提供详细的分析报告和置信度评估,增强结果可解释性 图形化界面设计,让专业检测变得简单易用 支持批量处理和实时检测,提高工作效率 灵活的参数配置,满足不同场景的检测需求 3. 【20%】方案的产品组成和技术选型 核心检测引擎:基于PyTorch深度学习框架 模型架构:ERNIE-3.0预训练模型优化 界面实现:Tkinter图形界面框架 数据处理:Pandas、NumPy等科学计算库 评估系统:scikit-learn机器学习工具库 开发语言:Python 文本分析:自研的智能分段和特征提取算法 这个作品是一个完整的AI文本检测解决方案,通过先进的技术实现和友好的用户界面,为用户提供专业可靠的AI生成文本检测服务。
1630python人工智能
本方案面向青藏高原研究基地,用于藏药材的识别与研究 本方案依托青藏高原研究院提供的数据集进行训练识别,通过知识图谱进行Ai问答机器人的搭建 技术方面本项目采用后端python与flask,数据库采用MySQL和neo4j,模型采用yolov8,前端采用html/css/js
1520python人工智能
1. 本方案面向谁,解决了什么问题 - 面向对象:本方案主要面向商家和企业用户以及消费者。 - 解决问题:针对当前主流平台上情感识别能力的局限性,开发了一套细粒度属性级情感分析系统。该系统能够挖掘顾客对商品及服务各个特定特性的情感响应,为商家与企业用户提供改进产品与服务的依据,同时辅助消费者做出更为明智的消费选择。 2. 相比于市场常规方案,本方案有哪些特点 - 技术先进性 - 采用先进的深度学习架构和模型:依托百度公司开源的深度学习架构PaddlePaddle以及其配套的PaddleNLP开发库,定制训练了基于SKEP模型的细粒度属性级情感分析算法。SKEP模型通过创新性的情感预训练任务设计,如情感配对预测、情感词汇预测以及词汇极性预测等手段,有效利用了未标记语料库中蕴含的情感信息资源进行模型训练,提高了情感分析的准确性。 - 结合多种先进技术实现前后端分离架构:前端界面构造上,选用Vue.js结合Element UI框架构建出直观易用的人机交互界面;后端架构层面,则借助FastAPI框架构建了高效且稳定的API接口体系,同时通过集成Axios工具,保障了前后端数据实时准确地同步交换。这种前后端分离的架构使得系统具有更好的可维护性和扩展性。 - 功能优势 - 细粒度情感分析能力:能够对用户评论文本内针对特定属性进行精细化的情感极性判断,不同于市场上一些仅能进行粗粒度情感分类的方案。 - 单条文本和批量文本处理能力兼具:系统既能高效解析单条文本的情感倾向,又能处理Excel文件中包含的多条用户评论数据,精准抽提其中各属性对应的情感倾向,并在预设的时间阈值内反馈详尽的分析结果表。 3. 方案的产品组成或技术选型 - 产品组成:由前端界面和后端架构组成。前端提供直观易用的交互界面,用于评论数据的输入展示和情感分析结果的输出;后端则负责数据处理和分析,包括模型训练、加载和情感分析算法的实现。 - 技术选型 - 深度学习框架:PaddlePaddle作为后端算法的基础深度学习框架,集成了动态图与静态图执行模式,具备完善且高度优化的基础模型库,为模型研发提供了便利。 - 自然语言处理开发库:PaddleNLP用于简化自然语言处理任务实施步骤,集结了一系列预训练模型、一致高效的API界面以及多元化的模型构件,强化了对大规模文本数据处理的支持能力。 - 前端框架:Vue.js和Element UI用于构建前端界面,Element UI提供了多样化的互动组件和协调一致的设计美学,Vue.js具有良好的可扩展性和组件化特性,二者结合能够高效构建兼具视觉吸引力和全面功能性的用户界面。 - 后端框架和工具:FastAPI作为后端框架用于构建API服务,充分利用Python 3.6+版本中的类型提示功能,具备较低的学习门槛和高生产效率优势,并自动生成功能齐全的交互式API文档。Axios作为HTTP通信库用于连接后端API,实现前后端的数据交互,具有跨浏览器和Node.js双平台运作、请求与响应拦截及数据转化等功能。
3020python人工智能
1、主要面向丰田车企用户,解决的场景问题是:通过家内的智能设备,远程控制车载设备,解决了提前开启车内空调、车门未锁报警、APP控制寻车等场景问题; 2、特点是无需手动,直接通过语音控制车内设备,节省了车主调节设备的时间; 3、涉及到的产品组:智能设备上的风云悦享APP、云端的语音技能、后台的媒资推送脚本。
1810docker人工智能
Llamacpp imatrix Quantizations of Phi-3-medium-128k-instruct Using llama.cpp pull request 7225 for q
710pytorchnlp
Llamacpp imatrix Quantizations of Phi-3.1-mini-4k-instruct I'm calling this Phi-3.1 because Microsof
940pytorchnlp
gte-Qwen2-1.5B-instruct gte-Qwen2-1.5B-instruct is the latest addition to the gte embedding family.
820Pytorchnlp
当前共484个项目more
×
寻找源码
源码描述
联系方式
提交