SummerZML-成都Python-程序员客栈

1月前来过

D级

石油数据分析师

成都

全职 · 600/日 · 13050/月信用正常

工作时间: 工作日8:00-23:00、周末8:00-23:00工作地点: 远程

服务企业: 1家累计提交: 0工时

立即雇佣

聊一聊

APP聊一聊

去下载APP

主页

从事行业数据管理10年，具备丰富数据处置经验，善于综合运用各类工具高效解决各类数据问题。尤其擅长海量数据整合，数据清洗，文本数据挖掘，词频统计，PDF文件处置。

擅长工具包括：python数据处理模块，excel高级，VBA，powerbi，power query，SQL等。

2013-07-01 -至今泛美天地能源咨询有限公司石油数据分析师
跨国石油咨询公司数据分析师，具备丰富海量数据处置经验，海外工作经历。善于处理各类数据抽提，清洗，整合问题。

2006-09-01 - 2013-07-01西南石油大学石油工程硕士
石油背景

Python熟练

MySQL熟练

作品

Python表格数据抽提：pandas，xlwings，openpyxl，numpy，os

使用python多种模块配合实现复杂表格特定数据抽提，数据清洗，数据整合，添加图表，修改格式，excel文件批量处理。

2023-12-10 21:03

Python多需求数据清洗合集：pandas，re，opencv，PyPDF2，emoji

内容包括： 1. 使用python模块emoji和re实现表情符号替换 2. 文本挖掘，处理excel文件，将含特定关键字的文本信息提出 3. 按需求清洗数据，并实现excel多表合并 4. 使用opencv库，实现PDF扫描书籍背景修改 5. 将word文件批量写入excel中

2023-12-10 18:10

Python文档可读性分析：pdfplumber, pandas, re, jieba, json,

内容包括： 1. 对上市公司IPO审核问询回复函、招股说明书PDF格式原始文件（11000个）进行目标文件锁定。二进制去重，并基于目标公司名单，及关键字，筛选出目标文件2490。 2. 使用python模块plumber抽提PDF中的文本，表格和图片信息，进行数据清洗与结构化。 3. 读取文本目录，将文章分割为问题块及回答块，分别统计字符数，评估问询函有效性。 4. 采用自然语言处理框架中的Jieba分词技术对文本内容进行切割，基于HMM模型和 Viterbia算法进行预测分词，将分词结果与《灵格斯汉英会计词典会计术语词典》进行比对，统计会计词汇出现次数，计算会计术语密度。 5. 以(现代汉语篇章中的连接成分》逆接连接成分为基础构律词典，使用re模块将每个逆接词作为正则表达式的pattern去匹配全文内容，统计逆接词出现的总次数，计算逆连词密度。 6. 将PDF中提取的表格与图片信息，折算为行数，计算可视化信息占比。 7. 使用pandas综合多个指标，分箱评级，得出文章可读性分数。

2023-12-10 18:01

更新于: 2023-12-10 浏览: 405

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐