BlazigSQL是RAPIDS生态系统的GPU加速SQL引擎。
RAPIDS包含一组软件库(BlazigSQL、cuDF、cuML、cuGraph),用来在GPU上执行端到端的数据科学计算和分析管道。
BlazigSQL是一个基于RAPIDS生态系统构建的GPU加速SQL引擎。RAPIDS基于ApacheArrow柱状内存格式,cuDF是一个GPUDataFrame库,用于加载、连接、聚合、过滤和操作数据。
BlazigSQL是cuDF的SQL接口,具有支持大规模数据科学工作流和企业数据集的各种功能。
主要特性:
查询外部存储数据-单行代码可以注册远程存储解决方案,例如AmazoS3。简单的SQL -非常容易使用,运行SQL查询,结果是GPUDataFrames(GDF)。互操作性-任何RAPIDS库都可以立即访问GDF以获取数据科学工作负载。示例代码:
CVS读取:
fromblazigsqlimportBlazigCotextbc=BlazigCotext()#CreateTablefromCSVbc.create_table('taxi','/blazigdb/data/taxi.csv',delimiter=',',ames=colum_ames)#Queryresult=bc.sql('SELECTcout(*)FROMmai.taxiGROUPBYyear(key)').get()result_gdf=result.colums#PritGDFprit(result_gdf)JSON处理:
fromblazigsqlimportBlazigCotextimportcudfbc=BlazigCotext()#LoadJSONitoGPUDataFrame(GDF)taxi_gdf=cudf.io.jso.read_jso('taxi.jso')#CreateTablefromGDFbc.create_table('taxi',taxi_gdf)#Queryresult=bc.sql('SELECTcout(*)FROMmai.taxiGROUPBYyear(key)').get()result_gdf=result.colums#PritGDFprit(result_gdf)
评论