PDF数据抽取
1月前来过
全职 · 550/日  ·  11962/月
工作时间: 工作日17:00-24:00、周末9:00-24:00工作地点: 远程
服务企业: 31家累计提交: 1工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

1.自动化操作
1.1 提取Excel 指定数据
例如提取excel 中某几列的数据或者对某些数据,例如电话等等数据进行提取
2.爬虫
2.1 常见的网站均可提取
3.数据分析
3.1 Numpy 和Pandas 常见操作都OK, 也做些情感分析类的
4.后端项目开发
4.1 Django, Flask, FastAPI 后端开发

5.数据库操作
5.1 对MYSQL 数据库相关操作熟悉
5.2 对Redis 数据库相关操作熟悉
6.算法
6.1 常见排序,检索算法比较熟悉
6.2 提取图片中的表格数据

工作经历

  • 2019-06-01 -至今趋研信息科技有限公司Python高级工程师

    图片和文字PDF信息提取 文字PDF目前采用PDFPLUMBER,而图片PDF则自己训练相关的识别算法 EXCEL 信息提取 根据每家Excel模板提取其中的重要列 数据清洗和分析 利用Numpy,DataFrame 对常见数据进行清洗 爬虫 利用Selenium 爬虫网站表格数据, 或者一些重要的物流数据 后端开发 Django, Flask, FastAPI 后端开发 算法 主要是图片识别相关算法,对检索和排序常见算法比较熟悉,目前针对别名表采用比较先进的前缀树进行处理

教育经历

  • 2015-09-01 - 2019-06-01洛阳理工学院计算机科学与技术本科

    喜欢数据结构和相关的设计模式,大三时候通过接触北京大学的Python慕课慢慢喜欢上

技能

0
1
2
3
4
5
作品
文字版PDF识别线上版

采用面向对象的设计,以及策略类的设计模式,对货运公司的各种PDF模板抽取并清洗指定数据,,以JSON形式保存,最后生成比对的EXCEL文件 亮点: 1. 采用框取关键词的四周来确定需要文本的内容 2. 公司的配置信息通过数据库来维护 3. 因为提前将数据清洗好,后面比对的过程相对简单许多 4. 采用消息队列和OSS形式来管理对货运公司的发过来的文件,方面进行模板开发和保存识别结果

0
2021-07-01 06:12
货运Excel识别和数据清洗

采用面向对象的设计,以及策略类的设计模式,对货运公司的各种Excel模板抽取重要列并对列数据进行清洗 亮点: 1.通过前缀树将相同含义的不同列名转化成统一列名,方面后续统一取值 2.因为各个excel的模板不同,so采用不同的策略类方面维护 3.利用FastApi实现更快的异步响应

0
2021-07-01 06:01
好酒招商网

项目描述:好酒招商网是专注于酒类批发零售的B2C电商平台, 技术支持:Python+Django+HTML5+CSS+JS+MySQL+Redis 主要职责: 1. 购物车模块的CRUD以及利用Cookie存储离线购物车数据; 2. 将第三方短信服务SDK和Celery结合,实现异步发送短信验证码; 3. 使用Redis缓存数据库中美酒信息和短信验证码; 4. 将美酒数据和Pyecharts结合,对用户选择的多个美酒进行横向对比; 5. 利用自定义分页器返回指定页的美酒数据; 6. 接入微博登录SDK; 7. 接入支付宝支付API,在蚂蚁金服沙箱环境下,测试支付模块 8. 采用Nginx反向代理和Supervisor提高并保障并发量; 9. 利用Django REST Framework实现快速开发

0
2023-03-04 05:48
更新于: 2021-06-30 浏览: 180