全部动态开源项目源文件源码产品系统 Java Python C/C++PHP C#TypeScript Go .Net 更多

自然语言处理

(1) 有限自动机原理 (2) 词法分析器原理 (3)形式语言基础及其文法运算 (4) 语法分析原理以及3种常用的语法分析方法 (5) 语义分析原理步骤：按理说设计一个扫描器首先应该先定义一套形式文法，然后根据文法设计自动机，这些过程实验指导书中已经为我们准备好了；在此基础上，我自己定义了一套数据结构对字符串插入查找的效率加以优化，并对整个程序的结构进行了调整优化；在经过自动机状态、状态转移与每个状态所执行的动作后，该Scanner会将源程序解析成相应的Token序列，以作为下一步Translator的输入；在Translator中，我根据指导书中给出的算数表达式文法结合课上所学内容，自己设计了基于自顶向下推导的Recursive Subroutine过程，并在相应位置添加了语义动作，根据这些进行Recursive Subroutine的代码实现；我分别为Scanner和Translator设计了测试用例，对程序进行测试，结果和期望相吻合；

2790C/C++自然语言处理

模型微调

预训练大预言模型微调，使用peft库,用lora方法，使用alpaca_data_zh数据集，微调bloom-1b4-zh模型，主要分为数据处理、高效微调、模型合并等几个步骤，重点关注loss情况

1570深度学习人工智能

后台管理客户端页面

1.后台管理系统开发，实现了客户对设备的全部设置、管理等功能。并在运维端可对客户的后台系统进行管理等功能。 2.公司之有我一个前端开发人员，前端的所有开发均由我一人开发。

1280操作系统工具

CCKS2020基于本体的金融知识图谱自动化构建技术评测第五名开源项目

整体结构可以分为实体识别和关系/属性抽取两部分，流程可以分为6步，其中2、3和4步会重复执行多次。第1步：通过Hanlp和规则匹配的方式抽取部分实体第2步：采用远程监督方法，用种子知识图谱对齐无标数据得到标出了实体的数据第3步：用上一步得到的标出了实体的数据训练模型第4步：用上一步训练的实体识别模型抽取无标数据中的实体，并将抽取出的实体加入到种子知识图谱中，增加种子知识图谱的规模，重复2，3，4步多次不断使种子知识图谱规则不断扩大第5步：通过重复2，3，4步多次后得到扩展了大量实体的知识图谱，用种子知识图谱对齐无标数据，将无标数据中的实体都找出来第6步：通过上一步得到无标数据中的实体后，使用规则的方法判断实体间的关系和属性

1530深度学习关系抽取

抄清赋能

现有的抄清摘要抽取算法主要基于用户主观意识的文字生成，带有主观偏见，但是抄清工作赋能的目标是尽可能少的利用原文获取更多信息，保存更多的信息。本项目将基于自然语言处理技术对抄清数据进行分析，快速挖掘出重要信息，并通过结构化形式展示出来。方便其他人员的信息的快速阅识。主要包括如下三步任务： 1、将诸如PDF、图片等格式抄清信息通过特定算法识别出来转为纯文本信息； 2、利用训练的算法先对文本信息进行分类处理，再基于不同类别训练的算法模型从完整的抄清信息中快速挖掘出重要信息； 3、通过直观的结构化形式展示出来。 2、拟解决的关键问题 1、将抄清信息从不同格式文件中提取出来抄清信息储存的格式丰富多样，包括PDF、TXT、图片、DOC、EXCEL等，将抄清信息从这些不同格式中抽取出来是下游任务进行的关键，本项目将用诸如pdfplumber、PaddleOCR等python库并结合规则算法将文本信息从上述格式中抽取出来。 2、筛选任务目标需要的模型针对本项目，从文本基础预处理出发到抄清重要信息任务展示，选取大量的领域较优模型进行对比分析，筛选适合本任务的算法模型进行后续的优化研究。

2370机器学习人工智能

基于文本内容的自动匹配

算法实现基于文本内容的自动匹配： 1、数据预处理，微调中文文本向量化模型和语义分割模型，实现将文本内容转化为向量； 2、构建相似向量库； 3、分析数据特征，构造匹配算法。

1620深度学习机器学习/深度学习

金融社媒数据舆情分析项目

1、项目描述为了提高对互联网海量源声中舆情的分析能力,本项目构建了一个社媒数据的热点挖掘与观点提取系统。系统的主要目标为：（1)对于海量互联网源声进行过滤,保留相关数据；（2)基于过滤结果,对源声进行事件抽取与编码,聚类形成业务热榜；（3)对于各业务热榜进行观点分类,得到热点事件的用户舆情。 2、主要工作（1）根据任务特点,从零训练了中文GPT-4模型用于源声数据的事件生成,通过三个阶段分别训练模型的中文语言建模能力,通用摘要能力和针对任务的事件生成能力；（2）分别训练了用于领域过滤,观点分类的模型,引入Prompt Learning,对比学习等技术提升模型性能；（3）尝试使用中文大模型对热点事件模块进行优化,提升热榜准确率和可读性；（4）完成服务的工程代码开发,各功能模块解耦,满足业务方的实际使用场景,部署服务到MLOPs平台。 3、项目成果（1）截至目前,文本过滤模块和观点分类模块准确率均达到90%以上; （2）舆论热榜模块聚类簇准确率达到87%，相较于原服务准确率提升20%；（3）服务交付相关业务使用。 4、个人收获（1）深度参与构建真实场景下的NLP应用系

6530大模型

基于wechaty机器人的微信小助手

一）研究目的本项目实现一款基于wechaty的多功能服务机器人，制作一个校园官方的“朋友圈”，学生可以通过微信平台，以自然语言对话的方式简便快速地完成校内日常事务及活动发布推广；也可以通过与智能机器人对话方式获取如图像处理等趣味功能，丰富校园生活并且提升学校形象。（二）研究内容大学生在校园中常常有丢失物品的情况，通常会通过校园墙等渠道大海捞针式的寻找，耗时费力。如果能够借助wechaty，拾到失物者通过向微信服务机器人发送失物照片，借助AI技术对失物进行识别，即可快速匹配联系到失主。学校管理中有大量的规章制度．例如学生竞赛、项目报销、最新防疫政策、毕业设计相关流程和要求等。师生们通常遇到问题是不知道去哪里查找对应的政策，甚至不知道该找谁询问，导致在流程上耗费了大量的时间和精力。如果能够有一个智能且友好的接入服务，针对提出的疑问自动答复，将会有力提高校园运转效率。互联网时代传统学校招生方式也越来越不受年轻人喜欢。如何提供一种更有亲和力，更有趣的方式吸引年轻人的注意，介绍并且推广学校是一个非常需要考虑的问题。通过微信接口，可以给大众以问答的形式，实时回答各种关于至诚学院的问题

2260

基于本地大模型构建对话系统

使用olllama加载本机模型，创建建modelfile对模型进行提示词构建，使用ngrok对ollama服务器进行反向代理进行公网访问

1470深度学习人工智能

基于CLIP的跨模态检索系统

使用CLIP预训练模型进行跨模态检索，Flask框架搭建web服务，可对检索数据库进行管理、留言，并对模型进行微调，实现跨模态数据检索。

1680人工智能

小票关键信息提取

项目分为图像分类模块，OCR模块，NER命名实体识别模块。首先上传图片，分类出存在关键信息的图片，再经过OCR进行图片中字符提取，然后使用命名实体识别技术，对关键信息进行提取，可以实现图像的关键信息提取。负责分类模块和NER模型的模型开发，训练、部署等任务。最终系统整体准确度90%+，减少了约30%人工，同时简化了业务流程

2500深度学习

AI绘画

AI绘画调用api

850图像处理

kineai智能聊天系统

1. 该系统主要有语音clone，语音合成，语音识别，数字人等模块。主要用于合成不同声音，文本用于不同场景中，比如数字人播报，教育，医疗等 2. 主要负责，整体架构搭建，语音clone训练，核心api接口开发 3. 与多个不同行业的公司签署相关合作合同

4630JavaLLM

大模型应用RAG(demo)

1.支持多个大模型同时服务，图像生成/文本生成/视频等全域开源大模型; 2.支持910b/tpu/cpu/gpu部署，支持单卡和多卡混合部署，并发支持; 3.demo使用了3种大模型, 2层级分支处理逻辑, 实现了订腾讯会议、代码解释生成、图片生成和处理一般问题； 4.深度支持RAG，检索增强生成，层次化知识存储；demo支持上传文档，体验专属个人助手(用完即删不会存档,txt或md文件)； 5.全套代码独有，支持前后端定制，支持大模型预训练/指令微调等微调工作； 6.给出和现有系统混合协作的解决方案；

4010机器学习/深度学习

CCKS2020基于本体的金融知识图谱自动化构建技术评测第五名开源项目

1760深度学习关系抽取

车位号识别

项目分为数据采集、数据标注、数据训练、部署推理模型、测试。负责停车场车位号数据采集、数据清洗和标注、训练等模块；

1470深度学习

简历解析搜索

这是一个简历文件解析的平台，我在里面负责开发“解析文件解析”功能，负责简历解析器的日常维护，修复疑难简历的解析问题。也参与部分开发其它功能，如职位管理、快搜、上传简历、人才库等等。个人在里面碰到的技术难点有：简历文件很多，却要求快速、高并发的解析效果。每人的简历格式不同，不少个性化的简历写法，尤其设计师以图片作品为主的简历，但要求精准解析出简历的所有内容，如姓名等基本信息、工作经历、教育经历等。采用大量正则表达式来匹配内容，并需要训练大量的基础数据来匹配内容，如公司名、学校名、项目名等。

1400人力资源管理

基于金融大模型的行业调研报告生成

【业务模块】整体金融大模型行业调研报告项目主要分为三个部分，其中第一部分主要是待调研公司核心数据的配置模块，主要包括三个类别下的数据信息，即:所属行业，推荐指标类别和核心指标类别等。第二部分主要是对待调研公司的各类指标进行行业咨询内容的采集。第三部分是对于采集的信息做核心信息抽取，完成整体摘要信息的生成。【负责业务】主要负责整体业务架构的算法架构设计，实现基于金融搜索大模型的信息采集和基于金融推理大模型的调研报告生成。主要涉及到搜索大模型的应用，大模型微调和基于大模型的摘要生成等业务内容。【效果】整体完成了业务目标，实现了全自动的行业信息采集和摘要生成，极大地提高了行业调研报告生成的效率。

6130大模型

邮箱聚合

这是一个类似foxmail之类的邮件管理工具，但它是在服务器运行，并同时支持大量邮箱的。我个人在里面负责所有的后端功能。功能需求： - 像foxmail之类的邮件管理工具那样添加邮箱信息，并读取邮箱里面的邮件和下载附件。 - 需要大批量读取邮件，并定时轮询各邮箱。 - 将读取到的简历文件，解析出来，再将解析结果通知给各客户的接口。 - 需要保证系统的高可用、出错重试、调用日志查询、及时读取各邮箱等。 - 需要支持几乎所有邮箱类型。 - 需要支持目前的3种邮箱读取协议：IMAP、POP3、EXCHANGE。

1920

文本分词web应用

使用flask实现的web应用，对文章进行分词（jieba），生成按级分词结果。可按词表实现不同等级的分词处理，有匹配分析、过滤分析等不同功能。

1260个人助理软件

当前共278个项目

...10 11 12 13 14

登录后即可上传、下载作品

分类

Rust 餐饮 3C ERP 教程与指南 PaaS系统/容器其他 Visual Studio Code 扩展 Socket 常用JavaScript包

自然语言处理

重点城市程序员兼职推荐

重点岗位程序员兼职推荐