自然语言处理

项目分为:向量知识库的构建模块、大模型对话模块,对使用者来说实现了PDF文档集合的智能分析 我负责前后端的开发、开源LLM的部署、向量数据库的解决方案,最终达到了PDF检索准确性提高20%,工作效率提升50%。 难点:将PDF切片并且检索相关部分、大模型部署和推理、向量数据库的使用
1890
项目介绍: 对于评论文本内容进行 1~10 的评分,来评估改文本对于用户体验的满意程度。项目采用了基于 G RU 的深度神经网络模型,进行文本多分类的任务。 工作描述: 1、训练词向量:使用 word2vec 的 cbow 模型训练词向量,并将得到的结果保存成文本。 2、训练模型及优化:构建 GRU 模型,使用训练好的词向量训练模型,使用 softmax 作为全连接 层的激活函数进行多分类任务。对于训练数据进行优化,把特殊的标点符号进行删除等。 3、结果:模型对于文本评价内容预测结果达到 92.7%
1540测试工具
第一步,肯定要加载数据,处理成词元对应的索引形式,之后构建数据生成器,第二步使用预训练模型,之后设置评估指标,设置学习率调节器,设置优化器,第三步,训练,在每个轮次后评估模型,返回准确率,召回率,F1分数,最后使用测试数据预测模型
1230自然语言处理
项目介绍: 结合算法端机器学习、深度学习模型及LLM能力搭建一个支持多租户,可扩展的 供应链域计划单据体系,基于策略中心、计划单据中心实现供应链计划域从需求到建议再到计划 的产出,指导执行实现灵活采、补、调。提升商家与小二协同效率的同时,优化采购、补货、调 拨准确率,降低缺出风险。打造供销协一站式平台,提供运营实时把控营销、需求、供给情况调 整售卖策略,优化供给降低售罄率与退供率。 使用的技术框架及中间件(阿里内部组件以下是平替):Mysql,Redis,Hive,ElasticSearch,ElasticJob,RocetMQ,Setinal,nacos 主要工作职责: 1. 基于大模型对商品标签进行商品规格属性提取,对接同品匹配算法模型实现跟进竞价系统, 提升淘菜菜价格力。 2. 负责计划域策略中心,计算调度中心,计划单据中心、预测中心的架构设计,对计划域服务 进行重构。 3. 担任计划域系统重构PM,负责协调供应链计划上下游资源,把控重构项目进度及项目风险, 推动重构项目落地以及上线灰度切换及数据对账。 4. 基于DTS调度中心、预测中心和策略中心打造T0,T1销量预测白盒化
1100JavaJava
主要分为两个大模型,一个解码器一个合成器,在解码器部分采用了wavenet作为encoding之后的核心算法,还附带了其他语言应用的功能
450
主要分为两个大模型,一个解码器一个合成器,在解码器部分采用了wavenet作为encoding之后的核心算法,还附带了其他语言应用的功能
580
数字时代,数字产品泛滥,互联网平台多不胜数。那个这个数字人就是你在不同的电子产品、不同平台上的分身,代替你行人的职责。除了文章开头说的三个案例外,至少还可以用于: 电子导游; 电子解说员; 虚拟老师; 售前、售后客服; 前台指引。
910tensorflow
云胶片系统是一款创新的医学影像数字化及云诊疗服务平台,它依托于云计算、机器学习、大数据、移动互联网等技术,并遵循DICOM协议,助力医疗机构实现无胶片化技术革命。医生可以进行阅片诊疗服务,患者可以调阅、下载检查资料。
970Java人工智能
智能对话系统: 1、产品设计:原型设计+模型设计+模块设计 2、产品研发: (a)带领团队进行产品开发 (b)引擎模块的设计与研发 (c)对话公司整体呼叫中心的产品 3、产品推广: (a)产品推广方案的设计 (b)产品功能讲解与客户关系维护 (c)产品经过多轮POC
1340Java自然语言处理
项目介绍: 基于医疗知识图数据库,构建一个在线诊疗系统,用来给患者提供对应病情分析。用户通过在线系 统请求到在线诊疗服务,系统根据用户输入病情实时地为用户提供对应疾病类型。 项目内容: 1、命名实体识别(NER)任务:通过搭建BiLSTM_CRF模型,将提取出的命名实体传入下一步进行 命名实体审核(NE)任务。使用准确率,召回率和 F1-score 来评估模型,最终能够模型在训练集 和验证集的召回率分别在:0.85和0.78左右; 2、命名实体审核(NE)任务:使用BERT中文预训练模型对句子编码,构建RNN模型训练函数,通过 绘制训练和验证的损失和准确率对照曲线最终模型准确率维持在0.98左右; 3、在线部分: werobot 服务模块、主要逻辑服务模块、句子相关模型服务模块、会话管理模块, 图数据库模块以及对话(查询neo4j图数据库并返回查询结果)/Unit 模块。
2150可视化
在推理过程中,如果我们希望不增加计算力和空间随着推理长度的增加,可以考虑使用某些特定的算法和数据结构。例如,可以使用动态规划、滑动窗口等技巧来降低算法的时间复杂度和空间复杂度。 以动态规划为例,它是一种通过将复杂问题分解为更小的子问题来解决原问题的方法,并且保存子问题的解以避免重复计算。这样,在处理长序列的推理任务时,动态规划可以帮助我们避免不必要的重复计算,从而减少计算力和空间的消耗。 再比如,当我们在处理文本数据时,可以使用滑动窗口技术来处理长文本。滑动窗口技术允许我们在不增加额外空间的情况下,对文本序列进行分块处理,从而减少了空间复杂度。 除此之外,还有一些模型压缩和优化技术,如模型剪枝、量化、低秩分解等,可以在不牺牲太多性能的情况下,减少模型的体积和计算量,从而使得模型在推理时更加高效。 总之,通过合理地选择算法和数据结构,以及使用模型压缩和优化技术,我们可以在推理过程中不增加计算力和空间随着推理长度的增加。
1180python
文本处理,内容及商品的品类、消费电商导向、货品需求词识别算法构建。货品需求词挖掘+商品分类体系的建设+识别规则制定,文本分类筛选需求品类,基于分词加规则的方式筛选出品牌,品类,导流平台等关键词,后期作为训练样本加入到实体识别中,生成命名实体识别(Bi-LSTM+CRF)模型,提升泛化能力。
890pythonpython
构建模型预测手写文本的内容,使用到卷积网络CNN和时间序列的网络RNN,构建输入图片和文本标签,先提取图片特征,之后把特征输入LSTM带记忆的网络,最后获取模型对图片中的文本序列中每个字符的预测概率分布,用ctc损失引导模型学习,输出的概率是序列中的字符在字符集中的概率,最大的那个是模型的预测,返回的输出是每个时间步(字符)在字符集中的概率分布
2300图形/图像处理
可以根据需求定制完成以下内容 1、数据分析处理,python,包含数据预处理、可视化、爬虫、常见模型分析等; 2、办公自动化:excel VBA自动化、python 办公自动化 3、Axure原型设计; 4、看板搭建、数据大屏搭建
1380python自然语言处理
项目描述:“乾坤仪”是阿里巴巴营销洞察中心的一款业内新媒体监测产品,主要服务于天猫、淘宝、饿了么、阿里云、菜鸟、夸克等BU市场运营人员,用于在新媒体上评估活动效果、监测竞争趋势等,新榜主要为其提供数据支撑。 工作职责: 1. 原料准备,数据建模,数据清洗。跨多平台,使用python(numpy,pandas,matplotlib ,sklearn等)进行前期数据清洗,特征选择,发kakfa,DataWorks表分区存储,直播、商品、账号等多维度多层级映射关联。 2. 文本处理,内容及商品的品类、消费电商导向、货品需求词识别算法构建。货品需求词挖掘+商品分类体系的建设+识别规则制定,文本分类筛选需求品类,基于分词加规则的方式筛选出品牌,品类,导流平台等关键词,后期作为训练样本加入到实体识别中,生成命名实体识别(Bi-LSTM+CRF)模型,提升泛化能力。 3. 文本、数值等多维度特征提取挖掘,发现潜力、爆款商品和品类,为服务商、618和双十一赋能。基于阿里提供原型图中各子模块数据要求,进行跨表关联,多字段计算,完成数据挖掘,趋势洞察,配合提供定制化API,并协助乾坤仪的前端展示服务商,完
2650pythonpython
平台上线热词榜,热门词云。基于 jieba 进行大量文本原始数据词的初切分,插入前缀树,通过 ngrams 统计文本词频,计算各个 ngram 的凝固度,保留高于某个阈值的片段,通过凝固度+左右信息熵+词频的方式来进行新词发现,公式为:score = PMI + min (左熵, 右熵)。
1170python
项目分为:脑科学知识抽取模块、知识图谱构建模块、知识查询和分析模块,对使用者来说实现了250万篇脑科学文献的智能分析 我负责关键部分的NLP、知识图谱算法的解决,最终达到了抽取了3000万条知识,准确率提升50%。 难点:从科学文献中抽取出结构化的知识、领域大模型的训练
1090python自然语言处理
项目主要目的为使用 人工智能技术对新闻进行分类,减少人力成本提高效率。 1. 模型主要分为以下5个步骤进行:数据爬取、数据选择与读取、数据摘要与清洗、模型选择、模型训练与评估、模型组合与预测效验。 2. 使用python及其相关科学库如:numpy、pandas等技术开发,选择的算法模型有:词袋模型BOW(Bag of Words)、词向量(Word Embedding)、神经网络,采用交叉验证的方式训练模型,来降低过拟合情况,最后对上述三个模型的结果组合加权平均。 3. 数据爬取主要使用Python requests库。 4. 使用Jieba中文分词库对中文进行分词处理,来完成数据选择与读取。 5. 独立完成TF-IDF算法对处理好的数据进行摘要与清洗。 6. 使用开源TestCNN和TestRNN模型对数据进行处理。
1860pythonPython开发工具
项目介绍: 在如今信息大爆炸时期,文本信息过载问题日益严重,通过文本摘要的方式获取到海量信息中 的关键信息,以便于人们更好的理解信息,充分利用有价值的数据。 项目内容: 1、基于 Seq2seq 架构创建 Baseline-1 模型并使用提前训练词向量的方式来优化模型; 2、通过优化框架得到 PGN+attention 结构的 Baseline-2 模型,解决了 Baseline-1 无法处理 OO V 单词的问题; 3、通过优化训练算法得到 PGN+attention+coverage 结构的 Baseline-3 模型,解决之前模型中 无效重复的问题; 4、通过优化解码算法得到 PGN+attention+beam search 结构的 Baseline-4 模型,解决了无效 重复问题的同时提升了长文本摘要的表达。
1490服务框架/平台
知识助理,主要供自己平时学习使用,通过上传文档,通过聊天的方式可以快速掌握自己感兴趣的东西。使用的主要技术栈有:torch、langchain、大模型、streamlit等
5170AIGC
当前共272个项目
×
寻找源码
源码描述
联系方式
提交