自然语言处理

对天池比赛中给定的中文糖尿病文本数据集进行分类,属于一个多分类任务。通过构建自己的模型。最终实现最好的分类准确率。
250python深度学习
(1) 有限自动机原理 (2) 词法分析器原理 (3)形式语言基础及其文法运算 (4) 语法分析原理以及3种常用的语法分析方法 (5) 语义分析原理 步骤: 按理说设计一个扫描器首先应该先定义一套形式文法,然后根据文法设计自动机,这些过程实验指导书中已经为我们准备好了; 在此基础上,我自己定义了一套数据结构对字符串插入查找的效率加以优化,并对整个程序的结构进行了调整优化; 在经过自动机状态、状态转移与每个状态所执行的动作后,该Scanner会将源程序解析成相应的Token序列,以作为下一步Translator的输入; 在Translator中,我根据指导书中给出的算数表达式文法结合课上所学内容,自己设计了基于自顶向下推导的Recursive Subroutine过程,并在相应位置添加了语义动作,根据这些进行Recursive Subroutine的代码实现; 我分别为Scanner和Translator设计了测试用例,对程序进行测试,结果和期望相吻合;
550C/C++自然语言处理
AI绘画 调用api
290图像处理python
基于windows sdk的微信客户端机器人,实现自动回复,产品推销,自动收款,商品分发。后期接入基于本地知识库的LLM实现智能客服。
250自动化运维图形/图像处理
1. 项目模块: 数据预处理模块:这个模块负责对训练数据进行清洗、标准化和预处理,例如删除无效数据、分割数据集等。 模型训练模块:这个模块负责定义GPT模型的结构和参数,并使用训练数据对其进行训练。选择TensorFlow来实现GPT模型的训练过程。 模型评估模块。 应用模块:搭建一个视频自动生成程序。 2. 我的任务: 爬虫并进行数据预处理;使用分布式训练来加快训练速度;超参数调优:GPT模型具有多个超参数,如层数、隐藏单元数等。调整这些超参数对模型的性能和效果至关重要。你可以使用交叉验证、网格搜索或自动化调参工具来优化超参数选择。 过拟合和模型调优:GPT模型可能会面临过拟合的问题,即在训练数据上表现良好,但在新数据上的泛化能力较差。你可以采用正则化技术(如dropout)或早停策略来缓解过拟合,并进行模型调优以提高性能。
360pythonLLM (大语言模型)
【业务模块】 整体金融大模型行业调研报告项目主要分为三个部分,其中第一部分主要是待调研公司核心数据的 配置模块,主要包括三个类别下的数据信息,即:所属行业,推荐指标类别和核心指标类别等。第二 部分主要是对待调研公司的各类指标进行行业咨询内容的采集。第三部分是对于采集的信息做核心信 息抽取,完成整体摘要信息的生成。 【负责业务】 主要负责整体业务架构的算法架构设计,实现基于金融搜索大模型的信息采集和基于金融推理大模型的 调研报告生成。主要涉及到搜索大模型的应用,大模型微调和基于大模型的摘要生成等业务内容。 【效果】 整体完成了业务目标,实现了全自动的行业信息采集和摘要生成,极大地提高了行业调研报告生成的效率。
2660python大模型
1. 该系统主要有语音clone,语音合成,语音识别,数字人等模块。主要用于合成不同声音,文本用于不同场景中,比如数字人播报,教育,医疗等 2. 主要负责,整体架构搭建,语音clone训练,核心api接口开发 3. 与多个不同行业的公司签署相关合作合同
1170javaLLM
1、项目描述 为了提高对互联网海量源声中舆情的分析能力,本项目构建了一个社媒数据的热点挖掘与观点提取系统。系统的主要目标为: (1)对于海量互联网源声进行过滤,保留相关数据; (2)基于过滤结果,对源声进行事件抽取与编码,聚类形成业务热榜; (3)对于各业务热榜进行观点分类,得到热点事件的用户舆情。 2、主要工作 (1)根据任务特点,从零训练了中文GPT-4模型用于源声数据的事件生成,通过三个阶段分别训练模型的中文语言建模能力,通用摘要能力和针对任务的事件生成能力; (2)分别训练了用于领域过滤,观点分类的模型,引入Prompt Learning,对比学习等技术提升模型性能; (3)尝试使用中文大模型对热点事件模块进行优化,提升热榜准确率和可读性; (4)完成服务的工程代码开发,各功能模块解耦,满足业务方的实际使用场景,部署服务到MLOPs平台。 3、项目成果 (1)截至目前,文本过滤模块和观点分类模块准确率均达到90%以上; (2)舆论热榜模块聚类簇准确率达到87%,相较于原服务准确率提升20%; (3)服务交付相关业务使用。 4、个人收获 (1)深度参与构建真实场景下的NLP应用系
2110python大模型
该任务主要使用哈工大LCQMC数据集。LCQMC数据集是一个文本匹配数据集,它是基于人机对话任务的一项基本任务,通常被认为是语义匹配任务,有时是释义识别任务。本节的目标是计算两个文本的相似度,并得出是否相似的结果,相当于一个二分类问题。语料库包含260,068个带有人工注释的问题对,我们将其分为三部分,即包含238,766个问题对的训练集、包含8,802个问题对的验证集和包含 12,500个问题对的测试集。
310python深度学习
利用SVD分解实现PCA主成分分析,对于前期通过 skip-gram 网络训练所得的 200 维词向量,可通过该方法压缩至 100 维,同时尽可能保留模型精度
350自然语言处理教程与指南
项目背景:针对某医院智能问诊系统,开发智能问诊模块,对用户输入进行分析和判断,初步判断用户患病情况,并给出就医指南。 主要职责:负责对话引擎整体的算法设计,并进行相关大模型的微调和服务部署。其中涉及的子任务主要包括: (1). 针对用户输入信息的语义理解,抽取核心信息字段信息,主要包括病症名称词汇和病情描述信息。(2). 利用RAG技术实现对问诊流程的智能问答,包括看病流程,报销流程等等。(3). 针对用户的疾病信息进行问诊引导,包括去哪个科室,处理的流程和注意事项等等。(4).信息智能查询,通过语音查询检测结果信息等功能。 主要成果:完成整体系统的开发和大模型的微调,系统对话整体的准确率达到90%以上。
1920深度学习大模型
项目分为图像分类模块,OCR模块,NER命名实体识别模块。首先上传图片,分类出存在关键信息的图片,再经过OCR进行图片中字符提取,然后使用命名实体识别技术,对关键信息进行提取,可以实现图像的关键信息提取。负责分类模块和NER模型的模型开发,训练、部署等任务。最终系统整体准确度90%+,减少了约30%人工,同时简化了业务流程
370深度学习python
项目为某国内top3手机厂商语音助手。 本人负责自然语言处理部分的架构设计及开发,主导了项目从0到1的过程。 项目采用Python flask框架开发,流量分发使用nginx/openresty 自然语言理解部分实现了一套自研的规则引擎用于意图判断,后改为基于transformer的深度学习模型。 目前项目日活上千万。 本项目为纯后端项目,出于保密,无法提供作品图片。
380flaskAI
客户是一个迅速发展的企业,由于人力资源管理变得日益复杂,现有的人力资源管理工具已经无法满足需求。为了提高招聘和员工管理效率,客户决定开发一个智能平台来整合人力资源管理的各个环节。该平台的目标是实现高效的人力资源管理,促进组织内部的协作和沟通,并提供全面的数据分析和报告功能,以便客户做出更准确的决策。通过接入ChatGPT,客户希望为员工和管理者提供更好的用户体验,能够回答常见问题、提供指导和建议,并帮助解决一些简单的问题或任务。这将极大地减轻人力资源团队的负担,并提高整体工作效率。系统中包含的功能包含但不仅限于:提供招聘流程管理,包括发布职位、筛选简历、安排面试和评估候选人等功能; 允许客户在平台上发布招聘信息,并能自动将招聘信息推送至各大招聘渠道,如社交媒体和招聘网站; 提供人员档案管理、员工信息维护、奖惩记录管理等功能,确保人力资源数据的准确性和一致性; 支持薪酬管理,包括计算工资、发放工资、管理加班和福利等事项;根据项目需求和员工技能,提供智能化的人员分配功能,以便更好地调度和管理人力资源; 提供绩效评估标准和流程的设定,支持定期评估和反馈,以及对员工的绩效进行跟踪和分析; 生成
410python人工智能
运用爬虫获取数据集利用lora方式微调大语言模型,同时构建基于本地知识库的rag。后经测试,加入在线知识库;同时通过内网穿透程序实现远程服务。
410深度学习可视化
整体结构可以分为实体识别和关系/属性抽取两部分,流程可以分为6步,其中2、3和4步会重复执行多次。 第1步:通过Hanlp和规则匹配的方式抽取部分实体 第2步:采用远程监督方法,用种子知识图谱对齐无标数据得到标出了实体的数据 第3步:用上一步得到的标出了实体的数据训练模型 第4步:用上一步训练的实体识别模型抽取无标数据中的实体,并将抽取出的实体加入到种子知识图谱中,增加种子知识图谱的规模,重复2,3,4步多次不断使种子知识图谱规则不断扩大 第5步:通过重复2,3,4步多次后得到扩展了大量实体的知识图谱,用种子知识图谱对齐无标数据,将无标数据中的实体都找出来 第6步:通过上一步得到无标数据中的实体后,使用规则的方法判断实体间的关系和属性
390深度学习关系抽取
现有的抄清摘要抽取算法主要基于用户主观意识的文字生成,带有主观偏见,但是抄清工作赋能的目标是尽可能少的利用原文获取更多信息,保存更多的信息。 本项目将基于自然语言处理技术对抄清数据进行分析,快速挖掘出重要信息,并通过结构化形式展示出来。方便其他人员的信息的快速阅识。主要包括如下三步任务: 1、将诸如PDF、图片等格式抄清信息通过特定算法识别出来转为纯文本信息; 2、利用训练的算法先对文本信息进行分类处理,再基于不同类别训练的算法模型从完整的抄清信息中快速挖掘出重要信息; 3、通过直观的结构化形式展示出来。 2、拟解决的关键问题 1、将抄清信息从不同格式文件中提取出来 抄清信息储存的格式丰富多样,包括PDF、TXT、图片、DOC、EXCEL等,将抄清信息从这些不同格式中抽取出来是下游任务进行的关键,本项目将用诸如pdfplumber、PaddleOCR等python库并结合规则算法将文本信息从上述格式中抽取出来。 2、筛选任务目标需要的模型 针对本项目,从文本基础预处理出发到抄清重要信息任务展示,选取大量的领域较优模型进行对比分析,筛选适合本任务的算法模型进行后续的优化研究。
570机器学习人工智能
整体结构可以分为实体识别和关系/属性抽取两部分,流程可以分为6步,其中2、3和4步会重复执行多次。 第1步:通过Hanlp和规则匹配的方式抽取部分实体 第2步:采用远程监督方法,用种子知识图谱对齐无标数据得到标出了实体的数据 第3步:用上一步得到的标出了实体的数据训练模型 第4步:用上一步训练的实体识别模型抽取无标数据中的实体,并将抽取出的实体加入到种子知识图谱中,增加种子知识图谱的规模,重复2,3,4步多次不断使种子知识图谱规则不断扩大 第5步:通过重复2,3,4步多次后得到扩展了大量实体的知识图谱,用种子知识图谱对齐无标数据,将无标数据中的实体都找出来 第6步:通过上一步得到无标数据中的实体后,使用规则的方法判断实体间的关系和属性
290深度学习关系抽取
项目分为数据采集、数据标注、数据训练、部署推理模型、测试。 负责停车场车位号数据采集、数据清洗和标注、训练等模块;
280python深度学习
1.功能:query理解、语义相关性召回、相关性排序 2.使用ES索引、全文检索、NER模型、FAISS向量检索、tensorflow等技术,达到满意的搜索用户体验
250深度学习自然语言处理
当前共164个项目
×
寻找源码
源码描述
联系方式
提交