毕业于上海大学计算机工程与科学学院:
1. 熟练掌握python编程技术,对于mongo、hbase等非关系型数据库操作娴熟,熟悉爬虫技术;
2. 接触过nlp分词等技术;
3. 用java、scala等做过开发;
4. 搭建过redis分布式集群;
5. 熟练使用git、tmux、markdown等;
6. 熟悉linux操作。

此爬虫用来爬取51pdf网站上的个股研报以及行业研报,将爬取到的pdf文件去水印后存储到hdfs文件系统中,有用的数据信息存储到hbase数据库中。
02020-11-10 13:42

爬取巨潮网站上的上市企业公告文件及相关数据,将文件存储到hdfs系统中,将有用的数据存储到hbase中,区分A/H股企业。
02020-11-10 13:39

不能泄露公司内部信息
不能泄露公司内部信息
不能泄露公司内部信息
不能泄露公司内部信息
不能泄露公司内部信息
不能泄露公司内部信息
02020-06-16 01:10