计算机硕士在读,主攻OCR文字识别与机器学习方向,精通Python开发。
核心能力:
- 熟练掌握 PaddleOCR 框架(PP-OCRv5),具备完整的模型训练、评估、部署经验
- 熟悉 PyTorch,能独立完成数据预处理、模型训练与调优、ONNX导出与CPU推理
- 熟练使用 OpenCV 进行图像处理,能适配不同质量的扫描件和拍摄图片
- 熟悉 Flask/FastAPI Web框架,能搭建模型推理API
- 熟悉 Python 爬虫与自动化脚本编写,能处理各类数据采集需求
项目经验:
1️⃣ 藏文OCR识别系统(核心项目)
- 基于 PaddleOCR PP-OCRv5,创新性地引入 Dual-Stage Visual Prompt 方法
- 支持印刷体识别(准确率99%+)和手写体识别(词错率<5%)
- 完成从数据处理、模型训练到ONNX部署全流程
- 相关论文已投稿 IJDAR 国际期刊
2️⃣ 藏文OCR后纠错系统
- 基于 N-gram 统计和神经网络的文本后纠错
- 字丁(Stack)级评价体系,词错率降低30%+
- WMM手写体数据集上的完整实验
3️⃣ 同心本草——藏医药科普平台
- 基于 Streamlit 的全栈Web应用(4个核心页面)
- 集成藏文OCR识别模块(ONNX CPU推理,71MB模型)
- 交互式知识图谱可视化(101+节点,Pyvis)
- 集成 DeepSeek API 实现智能问答
服务承诺:代码规范、注释完整、响应及时、交付后免费修改一次小问题。