素羽
7小时前在线
全职 · 500/日  ·  10875/月
工作时间: 周末8:00-24:00工作地点: 远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

精通 Spark Core、Spark SQL,深入理解 DAG 调度、内存管理、Shuffle 优化机制。
     熟练使用 Spark SQL 进行复杂数据处理、多维度统计分析,优化执行计划。
     熟练使用 FlinkSQL 进行流批一体计算
     具备 LLM全流程经验,包括预训练数据清洗、LoRA/P-Tuning 高效微调
     熟练使用 DolphinScheduler 构建数据调度任务。使用 Zeppelin/datawark/Datart/quickBI 构建交互式分析仪表盘,  支持多维度下钻分析
     熟练使用 MySQL/PostgreSQL,优化 SQL 查询性

工作经历

  • 2023-08-01 -2025-09-01湖南视旅网络科技有限公司数据算法工程师

    基于Llama2的智能对话机器人开发项目 为应对小程序与APP用户咨询量激增的挑战,我主导开发了基于Llama2大模型的智能对话机器人,旨在提升客服效率与用户体验。项目期间,我深入调研用户高频咨询场景,系统梳理出行程规划、订单售后、AI导购等8大类核心需求,并据此设计对话逻辑与知识图谱,为系统功能开发奠定基础。 在技术实现上,我基于LangChain框架主导开发了行程模块、订单咨询模块等4大核心功能,实现用户问题的智能解析与精准回答。通过优化对话流程与回答策略,系统上线后用户咨询解决率提升60%。为提升模型在旅游领域的专业性,我负责完成5万余条高质量问答对的标注与数据清洗工作,并基于业务数据对Llama2模型进行针对性微调,通过超参数调整与训练策略优化,将模型在旅游场景的问答准确率从75%提升至97%。 面对模型在处理长尾问题时表现不佳的挑战,我通过收集罕见案例、扩充训练数据集并引入迁移学习技术,显著提升了模型对复杂问题的理解能力。针对不同业务场景回答逻辑交叉冲突的问题,我设计了优先级策略与场景融合算法,确保多场景切换时回答的连贯性与准确性。在成本控制方面,我通过模型结构优化与量

  • 2021-06-01 -2023-08-01 北京宏瓴科技有限公司 大数据开发工程师

    **车险智能风控与里程预测数仓项目** 在该项目中,我主要负责构建基于Hadoop与Spark的车险数据仓库体系,以解决公司面临的数据分散与风险评估粗放问题。我主导完成了数仓的ODS、DWD、DWS、ADS分层架构设计,并开发了50余个业务指标,建立了完整的数据质量监控体系,为业务精细化运营奠定了坚实基础。 在数据层面,我使用Python Scrapy框架搭建了高效的爬虫系统,日均稳定采集2万条行程数据与七千万点位数据。通过Spark进行数据清洗,有效处理了缺失值与异常值,将数据完整率提升至99%。基于Spark SQL,我抽取了行程距离、时长、时段等核心特征,并应用DBSCAN聚类算法,成功识别出长途驾驶、城市通勤等5类典型驾驶模式,为风险评估提供了深层洞察。 在模型开发方面,我使用Scala构建了Sigmoid评分函数,对急加速、急刹车等风险行为进行量化评分,模型准确率达到92%。我进一步采用灰度关联分析法,整合多维度风险评分,构建了综合风险评估模型,将驾驶员划分为5个风险等级,为保费厘定提供了关键依据。同时,我基于K-means聚类与BP神经网络,构建了年化里程预测模型,

教育经历

  • 2017-09-01 - 2021-06-01吉首大学软件工程本科

    在校期间,我积极投身专业实践,多次在程序设计类竞赛中锤炼技能。曾凭借扎实的技术功底与创新思维,荣获“校级创新杯一等奖”;随后在更广阔的平台上,于“市级新星杯”程序设计大赛中斩获三等奖。这些经历不仅深化了我对算法与数据结构的理解,更培养了我面对复杂问题时的分析能力、团队协作精神及在

技能

Python熟练
0
1
2
3
4
5
作品
商旅智能体开发项目

项目背景:企业差旅管理与个人旅游规划均面临流程繁琐、信息分散的痛点:传统差旅人工处理效率低,旅游行程规划依赖多平台拼凑,用户体验割裂。为实现一站式智能服务,基于公司自研垂直大模型,融合语音与文本交互技术,开发一体化智能体,覆盖商务出行与休闲旅游场景,提供需求识别、行程规划、商品推荐及下单闭环服务。个人职责:负责梳理商旅审批、差旅预订、旅游攻略等核心场景需求,基于 Python 与 LangChain 框架,设计多模态交互与大模型调用架构,实现商旅与旅游功能模块的解耦与协同。优化垂直大模型的prompt策略,训练覆盖200+商旅及旅游场景的意图识别模型,精准区分 “预订北京至上海商务舱”“规划成都三日游” 等需求,识别准确率达93%。在商旅场景中,对接企业OA系统自动生成出差单,联动公司的机票、火车、酒店、用车能力完成机票、酒店、火车票、用车预订;在旅游场景中,整合POI数据与景点知识库,结合用户偏好如亲子、摄影等,生成个性化旅游行程。基于大模型生成能力,为旅游景点输出游玩视频、攻略及贴士;为商旅与旅游行程匹配对应商品资源如商务用车、景区门票等等。集成语音交互、行程生成、商品下单功能,实现 “需求输入-方案生成-一键预订” 的端到端服务;通过自动化测试与用户反馈迭代交互逻辑,上线后用户平均操作耗时缩短70%

0
2025-10-15 22:15
基于Llama2的智能对话机器人开发项目

项目背景:随着公司小程序、APP用户咨询量激增,传统客服模式效率低、响应不精准。为提升用户服务体验,基于Python、Llama2 等技术开发智能对话机器人,通过分场景推理实现高效问答。利用自研大模型结合旅游数据进行微调,满足行程、订单等多场景咨询需求。个人职责:深入调研用户咨询高频场景,梳理行程规划、订单售后、AI导购等8大核心场景需求,设计对应对话逻辑与知识图谱,为功能开发提供框架。基于Langchain模式,主导开发行程模块、订单咨询模块等4大核心功能,实现用户问题智能解析与精准回答,模块上线后用户咨询解决率提升60%。负责旅游领域数据清洗、标注与预处理,构建高质量训练数据集,累计标注有效问答对5万+条,保障模型微调基础数据质量。基于Llama2模型,结合旅游业务数据进行针对性微调,通过调整超参数、优化训练策略,使模型在旅游场景问答准确率从75%提升至97%。监控机器人线上运行状态,优化回答逻辑与响应策略,建立用户反馈闭环机制,及时修复回答错误或不精准问题,保障服务稳定性。完成华为昇腾计算中心多项技术认证,掌握大模型在国产算力平台的部署与调优方法,为项目技术升级提供支持。项目难点:微调后的模型在处理长尾问题时表现不佳。通过收集罕见问题案例,扩充训练数据集,并引入迁移学习技术,提升模型对复杂问题的理解与回答能力。不同业务场景的回答逻辑存在交叉冲突。通过设计优先级策略与场景融合算法,优化对话流程,确保在多场景切换时回答的连贯性与准确性。大模型训练与推理对算力要求高,成本昂贵。通过优化模型结构、采用量化技术减少计算量,并合理调度华为昇腾计算资源,在保障性能的同时降低成本30%。

0
2025-10-15 22:05
车险智能风控与里程预测数仓项目
年代久远,图片参考!!!

项目背景:近几年公司在车险定价中面临数据分散、风险评估粗放、里程预测不准确等问题。为提升定价精准度与客户竞争力,基于 Hadoop、Spark 构建车险数仓体系,整合驾驶员行程数据与风险特征,开发智能保费厘定模型,实现精准风险定价与年化里程预测,支撑保险业务精细化运营。项目架构:scala+python+hadoop+spark+tidb个人职责:负责使用Python的Scrapy框架搭建爬虫系统,从车联网平台采集驾驶员三个月行程数据和点位数据,日均行程采集量达2万条,日均点位数据达七千万;通过Spark完成数据清洗,处理缺失值、异常值,数据完整率提升至99%。基于Spark SQL进行特征抽取,提取行程距离、时长、时段等核心指标;使用dbscan算法对驾驶行为进行聚类,识别出长途驾驶、城市通勤等5类典型驾驶模式,为风险评估提供数据支持。负责使用Scala开发Sigmoid评分函数,对急加速、急刹车、夜间驾驶等风险行为进行量化评分,输出标准化风险分值,模型准确率达92%。采用灰度关联分析法整合多维度风险评分,构建综合风险评估模型,将驾驶员划分为5个风险等级,为保费厘定提供科学依据。基于 K-means 对驾驶员起始点聚类,结合BP神经网络算法,构建年化里程预测模型,支撑精准定价。将模型输出结果写入 TiDB,优化 Spark 任务执行效率,保障数据处理时效性,支撑实时风险评估与保费计算。设计车险数仓 ODS、DWD、DWS、ADS 分层架构,开发 50 + 业务指标,建立数据质量监控体系,保障数据准确性与稳定性。项目难点:在处理驾驶员行程数据时,因少数高频用户导致数据倾斜。通过添加随机前缀与广播小表策略,将任务执行时间从2小时缩短至15分钟。整合车联网、用户画像等多源异构数据时,面临格式不统一、语义不一致问题。通过开发自定义UDF函数进行数据转换,实现数据标准化处理。初始里程预测模型误差率达15%。通过特征筛选与参数调优,引入时间序列分析,将预测误差率降低至8%,满足业务应用需求

0
2025-10-15 22:02
更新于: 8小时前 浏览: 4