Python之fastparquet:fastparquet的简介、安装、使用方法之详细攻略


哥俩好
哥俩好 2022-09-19 13:24:21 64630
分类专栏: 资讯

Python之fastparquet:fastparquet的简介、安装、使用方法之详细攻略

目录

fastparquet的简介

fastparquet的安装

fastparquet的使用方法

1、读取

2、写入



fastparquet的简介

    fastparquet是parquet格式的python实现,旨在集成到基于python的大数据工作流中。并非拼花地板格式的所有部分都已实现或测试,例如,请参阅下面链接的TODO。也就是说,fastparquet能够读取parquet compatibility项目中的所有数据文件。

fastparquet的安装

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple fastparquet

fastparquet的使用方法

1、读取

您可以指定要加载哪些列,哪些列作为类别保留(如果数据使用字典编码)。文件路径可以是单个文件、指向其他数据文件的元数据文件或包含数据文件的目录(树)。后者通常由hive/spark输出。

  1. from fastparquet import ParquetFile
  2. pf = ParquetFile('myfile.parq')
  3. df = pf.to_pandas()
  4. df2 = pf.to_pandas(['col1', 'col2'], categories=['col1'])

2、写入

默认情况下,生成一个具有单个行组(即逻辑段)且不压缩的单个输出文件。目前,只支持简单的数据类型和普通编码,因此期望性能与numpy.savez公司.

  1. from fastparquet import write
  2. write('outfile.parq', df)
  3. write('outfile2.parq', df, row_group_offsets=[0, 10000, 20000],
  4. compression='GZIP', file_scheme='hive')
文章知识点与官方知识档案匹配,可进一步学习相关知识
Python入门技能树预备知识Python简介123796 人正在系统学习中

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=2645
赞同 0
评论 0 条
哥俩好L2
粉丝 0 发表 21 + 关注 私信
上周热门
银河麒麟添加网络打印机时,出现“client-error-not-possible”错误提示  1504
银河麒麟打印带有图像的文档时出错  1423
银河麒麟添加打印机时,出现“server-error-internal-error”  1214
统信操作系统各版本介绍  1134
统信桌面专业版【如何查询系统安装时间】  1131
统信桌面专业版【全盘安装UOS系统】介绍  1087
麒麟系统也能完整体验微信啦!  1043
统信【启动盘制作工具】使用介绍  692
统信桌面专业版【一个U盘做多个系统启动盘】的方法  636
信刻全自动档案蓝光光盘检测一体机  542
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
信创开放社区邀请他人注册的具体步骤如下 15
如何玩转信创开放社区—从小白进阶到专家 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

添加我为好友,拉您入交流群!

请使用微信扫一扫!