全部动态开源项目源文件源码产品系统 Java Python C/C++PHP C#TypeScript Go Swift 更多

自然语言处理

智能对话系统： 1、产品设计：原型设计+模型设计+模块设计 2、产品研发：（a）带领团队进行产品开发（b）引擎模块的设计与研发（c）对话公司整体呼叫中心的产品 3、产品推广：（a）产品推广方案的设计（b）产品功能讲解与客户关系维护（c）产品经过多轮POC

1500Java自然语言处理

数据分析处理/图像处理/自动化

可以根据需求定制完成以下内容 1、数据分析处理，python，包含数据预处理、可视化、爬虫、常见模型分析等； 2、办公自动化：excel VBA自动化、python 办公自动化 3、Axure原型设计； 4、看板搭建、数据大屏搭建

1500python自然语言处理

在线AI医生诊断系统

项目介绍：基于医疗知识图数据库，构建一个在线诊疗系统，用来给患者提供对应病情分析。用户通过在线系统请求到在线诊疗服务，系统根据用户输入病情实时地为用户提供对应疾病类型。项目内容： 1、命名实体识别（NER）任务：通过搭建BiLSTM_CRF模型，将提取出的命名实体传入下一步进行命名实体审核（NE）任务。使用准确率，召回率和 F1-score 来评估模型，最终能够模型在训练集和验证集的召回率分别在：0.85和0.78左右； 2、命名实体审核(NE)任务：使用BERT中文预训练模型对句子编码，构建RNN模型训练函数，通过绘制训练和验证的损失和准确率对照曲线最终模型准确率维持在0.98左右； 3、在线部分： werobot 服务模块、主要逻辑服务模块、句子相关模型服务模块、会话管理模块，图数据库模块以及对话（查询neo4j图数据库并返回查询结果）/Unit 模块。

2330可视化

智能文本摘要项目

项目介绍：在如今信息大爆炸时期，文本信息过载问题日益严重，通过文本摘要的方式获取到海量信息中的关键信息，以便于人们更好的理解信息，充分利用有价值的数据。项目内容： 1、基于 Seq2seq 架构创建 Baseline-1 模型并使用提前训练词向量的方式来优化模型； 2、通过优化框架得到 PGN+attention 结构的 Baseline-2 模型，解决了 Baseline-1 无法处理 OO V 单词的问题； 3、通过优化训练算法得到 PGN+attention+coverage 结构的 Baseline-3 模型，解决之前模型中无效重复的问题； 4、通过优化解码算法得到 PGN+attention+beam search 结构的 Baseline-4 模型，解决了无效重复问题的同时提升了长文本摘要的表达。

1710服务框架/平台

阿里巴巴乾坤仪品牌识别全流程

项目描述：“乾坤仪”是阿里巴巴营销洞察中心的一款业内新媒体监测产品，主要服务于天猫、淘宝、饿了么、阿里云、菜鸟、夸克等BU市场运营人员，用于在新媒体上评估活动效果、监测竞争趋势等，新榜主要为其提供数据支撑。工作职责： 1. 原料准备，数据建模，数据清洗。跨多平台，使用python(numpy,pandas,matplotlib ,sklearn等)进行前期数据清洗，特征选择，发kakfa，DataWorks表分区存储，直播、商品、账号等多维度多层级映射关联。 2. 文本处理，内容及商品的品类、消费电商导向、货品需求词识别算法构建。货品需求词挖掘+商品分类体系的建设+识别规则制定，文本分类筛选需求品类，基于分词加规则的方式筛选出品牌，品类，导流平台等关键词，后期作为训练样本加入到实体识别中，生成命名实体识别(Bi-LSTM+CRF)模型，提升泛化能力。 3. 文本、数值等多维度特征提取挖掘，发现潜力、爆款商品和品类，为服务商、618和双十一赋能。基于阿里提供原型图中各子模块数据要求，进行跨表关联，多字段计算，完成数据挖掘，趋势洞察，配合提供定制化API，并协助乾坤仪的前端展示服务商，完

3360pythonpython

个人知识助理

知识助理，主要供自己平时学习使用，通过上传文档，通过聊天的方式可以快速掌握自己感兴趣的东西。使用的主要技术栈有：torch、langchain、大模型、streamlit等

5580AIGC

基于svc-vit的分类

主要分为两个大模型，一个解码器一个合成器，在解码器部分采用了wavenet作为encoding之后的核心算法，还附带了其他语言应用的功能

560

手写文本的识别CTC

构建模型预测手写文本的内容,使用到卷积网络CNN和时间序列的网络RNN,构建输入图片和文本标签,先提取图片特征,之后把特征输入LSTM带记忆的网络,最后获取模型对图片中的文本序列中每个字符的预测概率分布,用ctc损失引导模型学习,输出的概率是序列中的字符在字符集中的概率,最大的那个是模型的预测,返回的输出是每个时间步(字符)在字符集中的概率分布

2460图形/图像处理

命名实体识别

文本处理，内容及商品的品类、消费电商导向、货品需求词识别算法构建。货品需求词挖掘+商品分类体系的建设+识别规则制定，文本分类筛选需求品类，基于分词加规则的方式筛选出品牌，品类，导流平台等关键词，后期作为训练样本加入到实体识别中，生成命名实体识别(Bi-LSTM+CRF)模型，提升泛化能力。

1060pythonpython

文本分类项目

项目介绍: 对于评论文本内容进行 1~10 的评分，来评估改文本对于用户体验的满意程度。项目采用了基于 G RU 的深度神经网络模型，进行文本多分类的任务。工作描述: 1、训练词向量：使用 word2vec 的 cbow 模型训练词向量，并将得到的结果保存成文本。 2、训练模型及优化：构建 GRU 模型，使用训练好的词向量训练模型，使用 softmax 作为全连接层的激活函数进行多分类任务。对于训练数据进行优化，把特殊的标点符号进行删除等。 3、结果：模型对于文本评价内容预测结果达到 92.7%

1660测试工具

淘宝买菜供应链计划

项目介绍：结合算法端机器学习、深度学习模型及LLM能力搭建一个支持多租户，可扩展的供应链域计划单据体系，基于策略中心、计划单据中心实现供应链计划域从需求到建议再到计划的产出，指导执行实现灵活采、补、调。提升商家与小二协同效率的同时，优化采购、补货、调拨准确率，降低缺出风险。打造供销协一站式平台，提供运营实时把控营销、需求、供给情况调整售卖策略，优化供给降低售罄率与退供率。使用的技术框架及中间件（阿里内部组件以下是平替）：Mysql,Redis,Hive,ElasticSearch,ElasticJob,RocetMQ,Setinal,nacos 主要工作职责： 1. 基于大模型对商品标签进行商品规格属性提取，对接同品匹配算法模型实现跟进竞价系统，提升淘菜菜价格力。 2. 负责计划域策略中心，计算调度中心，计划单据中心、预测中心的架构设计，对计划域服务进行重构。 3. 担任计划域系统重构PM，负责协调供应链计划上下游资源，把控重构项目进度及项目风险，推动重构项目落地以及上线灰度切换及数据对账。 4. 基于DTS调度中心、预测中心和策略中心打造T0，T1销量预测白盒化

1280JavaJava

预训练模型的命名实体识别和加了crf的模型的识别

第一步,肯定要加载数据,处理成词元对应的索引形式,之后构建数据生成器,第二步使用预训练模型,之后设置评估指标,设置学习率调节器,设置优化器,第三步,训练,在每个轮次后评估模型,返回准确率,召回率,F1分数,最后使用测试数据预测模型

1360自然语言处理

慕课数据中心

项目需求评审、工作量评估以及开发人员任务分配及进度管理架构设计，模块重构，不同院校不同版本慕课的模块迁移和整合开发部分模块解耦，独立设计部分模块，以适应不同学校的需求核心业务模块逻辑优化，第三方接口对接优化数据库查询性能优化，接口响应时间优化线上问题排查解决，项目优化迭代跟进

1750JavaWeb多媒体播放器

融合RS模型与TextRank的电商评论摘要生成研究

本项目(研究)提出了一种嵌入RoBERTa且基于Seq2Seq框架的RS模型框架，利用了哈工大LCSTS摘要数据集和NLPCC 2017摘要数据集中的若干原文-摘要对进行了训练，并用其编码句向量，将得到的句向量结合传统摘要算法TextRank进行电商用户评论的摘要生成。本项目(研究)的实现，包括模型框架代码以及训练代码，均用Python语言，主要第三方库：torch、transformers。

1700python自然语言处理

sum out llm（gpt ）开源项目

在推理过程中，如果我们希望不增加计算力和空间随着推理长度的增加，可以考虑使用某些特定的算法和数据结构。例如，可以使用动态规划、滑动窗口等技巧来降低算法的时间复杂度和空间复杂度。以动态规划为例，它是一种通过将复杂问题分解为更小的子问题来解决原问题的方法，并且保存子问题的解以避免重复计算。这样，在处理长序列的推理任务时，动态规划可以帮助我们避免不必要的重复计算，从而减少计算力和空间的消耗。再比如，当我们在处理文本数据时，可以使用滑动窗口技术来处理长文本。滑动窗口技术允许我们在不增加额外空间的情况下，对文本序列进行分块处理，从而减少了空间复杂度。除此之外，还有一些模型压缩和优化技术，如模型剪枝、量化、低秩分解等，可以在不牺牲太多性能的情况下，减少模型的体积和计算量，从而使得模型在推理时更加高效。总之，通过合理地选择算法和数据结构，以及使用模型压缩和优化技术，我们可以在推理过程中不增加计算力和空间随着推理长度的增加。

1390python

新闻文本分类

项目主要目的为使用人工智能技术对新闻进行分类，减少人力成本提高效率。 1. 模型主要分为以下5个步骤进行：数据爬取、数据选择与读取、数据摘要与清洗、模型选择、模型训练与评估、模型组合与预测效验。 2. 使用python及其相关科学库如：numpy、pandas等技术开发，选择的算法模型有：词袋模型BOW（Bag of Words）、词向量（Word Embedding）、神经网络，采用交叉验证的方式训练模型，来降低过拟合情况，最后对上述三个模型的结果组合加权平均。 3. 数据爬取主要使用Python requests库。 4. 使用Jieba中文分词库对中文进行分词处理，来完成数据选择与读取。 5. 独立完成TF-IDF算法对处理好的数据进行摘要与清洗。 6. 使用开源TestCNN和TestRNN模型对数据进行处理。

2160pythonPython开发工具

云胶片平台

云胶片系统是一款创新的医学影像数字化及云诊疗服务平台，它依托于云计算、机器学习、大数据、移动互联网等技术，并遵循DICOM协议，助力医疗机构实现无胶片化技术革命。医生可以进行阅片诊疗服务，患者可以调阅、下载检查资料。

1190Java人工智能

新词、组合词发现

平台上线热词榜，热门词云。基于 jieba 进行大量文本原始数据词的初切分，插入前缀树，通过 ngrams 统计文本词频，计算各个 ngram 的凝固度，保留高于某个阈值的片段，通过凝固度+左右信息熵+词频的方式来进行新词发现，公式为：score = PMI + min (左熵，右熵)。

1330python

基于svc-vit的分类

主要分为两个大模型，一个解码器一个合成器，在解码器部分采用了wavenet作为encoding之后的核心算法，还附带了其他语言应用的功能

650

生信数据统计

统计分析： t检验和ANOVA：比较多个样本组之间的差异。非参数检验：如Wilcoxon秩和检验，用于非正态分布的数据。多重检验校正：如Bonferroni校正和Benjamini-Hochberg方法，用于控制假阳性率。基因表达分析： DESeq2和edgeR：用于RNA-Seq数据的差异表达分析。 limma：用于微阵列数据和RNA-Seq数据的线性模型分析。变异检测： GATK和SAMtools：用于高通量测序数据的变异检测和注释。 VCFtools：用于处理和分析VCF格式的变异数据。基因功能富集分析： GO（Gene Ontology）分析：用于分析基因功能分类。 KEGG：用于代谢通路分析。 DAVID和Enrichr：用于基因集富集分析。

2340C/C++数据备份

当前共275个项目

1 2 3 4 5 6 7 8 9 10 ...

登录后即可上传、下载作品

搜索

分类

数据库调整和优化医疗 nodejs 汇编微信小程序工业软件 C/C++jQuery分页插件游戏人工智能

自然语言处理

重点城市程序员兼职推荐

重点岗位程序员兼职推荐