自然语言处理

智能对话系统: 1、产品设计:原型设计+模型设计+模块设计 2、产品研发: (a)带领团队进行产品开发 (b)引擎模块的设计与研发 (c)对话公司整体呼叫中心的产品 3、产品推广: (a)产品推广方案的设计 (b)产品功能讲解与客户关系维护 (c)产品经过多轮POC
1500Java自然语言处理
可以根据需求定制完成以下内容 1、数据分析处理,python,包含数据预处理、可视化、爬虫、常见模型分析等; 2、办公自动化:excel VBA自动化、python 办公自动化 3、Axure原型设计; 4、看板搭建、数据大屏搭建
1500python自然语言处理
项目介绍: 基于医疗知识图数据库,构建一个在线诊疗系统,用来给患者提供对应病情分析。用户通过在线系 统请求到在线诊疗服务,系统根据用户输入病情实时地为用户提供对应疾病类型。 项目内容: 1、命名实体识别(NER)任务:通过搭建BiLSTM_CRF模型,将提取出的命名实体传入下一步进行 命名实体审核(NE)任务。使用准确率,召回率和 F1-score 来评估模型,最终能够模型在训练集 和验证集的召回率分别在:0.85和0.78左右; 2、命名实体审核(NE)任务:使用BERT中文预训练模型对句子编码,构建RNN模型训练函数,通过 绘制训练和验证的损失和准确率对照曲线最终模型准确率维持在0.98左右; 3、在线部分: werobot 服务模块、主要逻辑服务模块、句子相关模型服务模块、会话管理模块, 图数据库模块以及对话(查询neo4j图数据库并返回查询结果)/Unit 模块。
2330可视化
项目介绍: 在如今信息大爆炸时期,文本信息过载问题日益严重,通过文本摘要的方式获取到海量信息中 的关键信息,以便于人们更好的理解信息,充分利用有价值的数据。 项目内容: 1、基于 Seq2seq 架构创建 Baseline-1 模型并使用提前训练词向量的方式来优化模型; 2、通过优化框架得到 PGN+attention 结构的 Baseline-2 模型,解决了 Baseline-1 无法处理 OO V 单词的问题; 3、通过优化训练算法得到 PGN+attention+coverage 结构的 Baseline-3 模型,解决之前模型中 无效重复的问题; 4、通过优化解码算法得到 PGN+attention+beam search 结构的 Baseline-4 模型,解决了无效 重复问题的同时提升了长文本摘要的表达。
1710服务框架/平台
项目描述:“乾坤仪”是阿里巴巴营销洞察中心的一款业内新媒体监测产品,主要服务于天猫、淘宝、饿了么、阿里云、菜鸟、夸克等BU市场运营人员,用于在新媒体上评估活动效果、监测竞争趋势等,新榜主要为其提供数据支撑。 工作职责: 1. 原料准备,数据建模,数据清洗。跨多平台,使用python(numpy,pandas,matplotlib ,sklearn等)进行前期数据清洗,特征选择,发kakfa,DataWorks表分区存储,直播、商品、账号等多维度多层级映射关联。 2. 文本处理,内容及商品的品类、消费电商导向、货品需求词识别算法构建。货品需求词挖掘+商品分类体系的建设+识别规则制定,文本分类筛选需求品类,基于分词加规则的方式筛选出品牌,品类,导流平台等关键词,后期作为训练样本加入到实体识别中,生成命名实体识别(Bi-LSTM+CRF)模型,提升泛化能力。 3. 文本、数值等多维度特征提取挖掘,发现潜力、爆款商品和品类,为服务商、618和双十一赋能。基于阿里提供原型图中各子模块数据要求,进行跨表关联,多字段计算,完成数据挖掘,趋势洞察,配合提供定制化API,并协助乾坤仪的前端展示服务商,完
3360pythonpython
知识助理,主要供自己平时学习使用,通过上传文档,通过聊天的方式可以快速掌握自己感兴趣的东西。使用的主要技术栈有:torch、langchain、大模型、streamlit等
5580AIGC
主要分为两个大模型,一个解码器一个合成器,在解码器部分采用了wavenet作为encoding之后的核心算法,还附带了其他语言应用的功能
560
构建模型预测手写文本的内容,使用到卷积网络CNN和时间序列的网络RNN,构建输入图片和文本标签,先提取图片特征,之后把特征输入LSTM带记忆的网络,最后获取模型对图片中的文本序列中每个字符的预测概率分布,用ctc损失引导模型学习,输出的概率是序列中的字符在字符集中的概率,最大的那个是模型的预测,返回的输出是每个时间步(字符)在字符集中的概率分布
2460图形/图像处理
文本处理,内容及商品的品类、消费电商导向、货品需求词识别算法构建。货品需求词挖掘+商品分类体系的建设+识别规则制定,文本分类筛选需求品类,基于分词加规则的方式筛选出品牌,品类,导流平台等关键词,后期作为训练样本加入到实体识别中,生成命名实体识别(Bi-LSTM+CRF)模型,提升泛化能力。
1060pythonpython
项目介绍: 对于评论文本内容进行 1~10 的评分,来评估改文本对于用户体验的满意程度。项目采用了基于 G RU 的深度神经网络模型,进行文本多分类的任务。 工作描述: 1、训练词向量:使用 word2vec 的 cbow 模型训练词向量,并将得到的结果保存成文本。 2、训练模型及优化:构建 GRU 模型,使用训练好的词向量训练模型,使用 softmax 作为全连接 层的激活函数进行多分类任务。对于训练数据进行优化,把特殊的标点符号进行删除等。 3、结果:模型对于文本评价内容预测结果达到 92.7%
1660测试工具
项目介绍: 结合算法端机器学习、深度学习模型及LLM能力搭建一个支持多租户,可扩展的 供应链域计划单据体系,基于策略中心、计划单据中心实现供应链计划域从需求到建议再到计划 的产出,指导执行实现灵活采、补、调。提升商家与小二协同效率的同时,优化采购、补货、调 拨准确率,降低缺出风险。打造供销协一站式平台,提供运营实时把控营销、需求、供给情况调 整售卖策略,优化供给降低售罄率与退供率。 使用的技术框架及中间件(阿里内部组件以下是平替):Mysql,Redis,Hive,ElasticSearch,ElasticJob,RocetMQ,Setinal,nacos 主要工作职责: 1. 基于大模型对商品标签进行商品规格属性提取,对接同品匹配算法模型实现跟进竞价系统, 提升淘菜菜价格力。 2. 负责计划域策略中心,计算调度中心,计划单据中心、预测中心的架构设计,对计划域服务 进行重构。 3. 担任计划域系统重构PM,负责协调供应链计划上下游资源,把控重构项目进度及项目风险, 推动重构项目落地以及上线灰度切换及数据对账。 4. 基于DTS调度中心、预测中心和策略中心打造T0,T1销量预测白盒化
1280JavaJava
第一步,肯定要加载数据,处理成词元对应的索引形式,之后构建数据生成器,第二步使用预训练模型,之后设置评估指标,设置学习率调节器,设置优化器,第三步,训练,在每个轮次后评估模型,返回准确率,召回率,F1分数,最后使用测试数据预测模型
1360自然语言处理
项目需求评审、工作量评估以及开发人员任务分配及进度管理 架构设计,模块重构,不同院校不同版本慕课的模块迁移和整合开发 部分模块解耦,独立设计部分模块,以适应不同学校的需求 核心业务模块逻辑优化,第三方接口对接优化 数据库查询性能优化,接口响应时间优化 线上问题排查解决,项目优化迭代跟进
1750JavaWeb多媒体播放器
本项目(研究)提出了一种嵌入RoBERTa且基于Seq2Seq框架的RS模型框架,利用了哈工大LCSTS摘要数据集和NLPCC 2017摘要数据集中的若干原文-摘要对进行了训练,并用其编码句向量,将得到的句向量结合传统摘要算法TextRank进行电商用户评论的摘要生成。 本项目(研究)的实现,包括模型框架代码以及训练代码,均用Python语言,主要第三方库:torch、transformers。
1700python自然语言处理
在推理过程中,如果我们希望不增加计算力和空间随着推理长度的增加,可以考虑使用某些特定的算法和数据结构。例如,可以使用动态规划、滑动窗口等技巧来降低算法的时间复杂度和空间复杂度。 以动态规划为例,它是一种通过将复杂问题分解为更小的子问题来解决原问题的方法,并且保存子问题的解以避免重复计算。这样,在处理长序列的推理任务时,动态规划可以帮助我们避免不必要的重复计算,从而减少计算力和空间的消耗。 再比如,当我们在处理文本数据时,可以使用滑动窗口技术来处理长文本。滑动窗口技术允许我们在不增加额外空间的情况下,对文本序列进行分块处理,从而减少了空间复杂度。 除此之外,还有一些模型压缩和优化技术,如模型剪枝、量化、低秩分解等,可以在不牺牲太多性能的情况下,减少模型的体积和计算量,从而使得模型在推理时更加高效。 总之,通过合理地选择算法和数据结构,以及使用模型压缩和优化技术,我们可以在推理过程中不增加计算力和空间随着推理长度的增加。
1390python
项目主要目的为使用 人工智能技术对新闻进行分类,减少人力成本提高效率。 1. 模型主要分为以下5个步骤进行:数据爬取、数据选择与读取、数据摘要与清洗、模型选择、模型训练与评估、模型组合与预测效验。 2. 使用python及其相关科学库如:numpy、pandas等技术开发,选择的算法模型有:词袋模型BOW(Bag of Words)、词向量(Word Embedding)、神经网络,采用交叉验证的方式训练模型,来降低过拟合情况,最后对上述三个模型的结果组合加权平均。 3. 数据爬取主要使用Python requests库。 4. 使用Jieba中文分词库对中文进行分词处理,来完成数据选择与读取。 5. 独立完成TF-IDF算法对处理好的数据进行摘要与清洗。 6. 使用开源TestCNN和TestRNN模型对数据进行处理。
2160pythonPython开发工具
云胶片系统是一款创新的医学影像数字化及云诊疗服务平台,它依托于云计算、机器学习、大数据、移动互联网等技术,并遵循DICOM协议,助力医疗机构实现无胶片化技术革命。医生可以进行阅片诊疗服务,患者可以调阅、下载检查资料。
1190Java人工智能
平台上线热词榜,热门词云。基于 jieba 进行大量文本原始数据词的初切分,插入前缀树,通过 ngrams 统计文本词频,计算各个 ngram 的凝固度,保留高于某个阈值的片段,通过凝固度+左右信息熵+词频的方式来进行新词发现,公式为:score = PMI + min (左熵, 右熵)。
1330python
主要分为两个大模型,一个解码器一个合成器,在解码器部分采用了wavenet作为encoding之后的核心算法,还附带了其他语言应用的功能
650
统计分析: t检验和ANOVA:比较多个样本组之间的差异。 非参数检验:如Wilcoxon秩和检验,用于非正态分布的数据。 多重检验校正:如Bonferroni校正和Benjamini-Hochberg方法,用于控制假阳性率。 基因表达分析: DESeq2和edgeR:用于RNA-Seq数据的差异表达分析。 limma:用于微阵列数据和RNA-Seq数据的线性模型分析。 变异检测: GATK和SAMtools:用于高通量测序数据的变异检测和注释。 VCFtools:用于处理和分析VCF格式的变异数据。 基因功能富集分析: GO(Gene Ontology)分析:用于分析基因功能分类。 KEGG:用于代谢通路分析。 DAVID和Enrichr:用于基因集富集分析。
2340C/C++数据备份
当前共275个项目
×
寻找源码
源码描述
联系方式
提交