torcharrow.DataFrame¶
torcharrow.DataFrame 是一个Python DataFrame库(基于Apache Arrow列式内存格式)
用于加载、连接、聚合、过滤和处理数据。
torcharrow.DataFrame 还提供了一个类似于Pandas的API,自然地融入到Python机器学习生态系统中,
对于数据科学家和机器学习工程师来说将很熟悉,因此他们可以使用它来表达在机器学习中的表格数据流程
例如特征工程、训练和推理预处理。
DataFrame类和通用APIs¶
- class torcharrow.DataFrame¶
- DataFrame.columns¶
DataFrame的列标签。
- DataFrame.dtype¶
数据类型为
torcharrow.Column
- DataFrame.device¶
将在其上分配
torcharrow.Column的设备。
- DataFrame.length¶
返回包含null值的行数
返回第一个 n 行。 |
|
返回最后的 n 行。 |
|
生成描述性统计。 |
|
返回没有删除列的DataFrame。 |
|
返回一个列名已重命名的DataFrame。 |
|
(实验性API) 返回具有指定顺序的列的数据帧。 |
|
返回带有附加值的列/数据框。 |
|
检查数据帧中的每个元素是否包含在值中。 |
功能API¶
根据输入的对应关系映射行。 |
|
选择 predicate 为 True 的行。 |
|
将行映射到根据输入对应关系的列表,如果结果类型与项目类型不同,则需要指定数据类型。 |
|
像map()一样,但每次只对行的批量调用可调函数。 |
关系API¶
类似于SQL的SELECT。 |
|
类似于SQL的where(NOT Pandas where) |
|
对列/数据框进行升序或降序排序。 |
数据清洗¶
使用指定的方法填充缺失值。 |
|
返回一个没有行的列/帧,其中一行有任何或所有null值。 |
|
(实验性API) 从行/帧中删除重复值,但保留第一个、最后一个和没有的。 |
转换¶
将self转换为箭头表 |
|
将数据转换为PyTorch容器(Tensor、PackedList、PackedMap等)。 |
|
将数据转换为普通的Python容器(列表或容器) |
|
将self转换为Pandas DataFrame |
统计信息¶
返回每列非空值中的最小值。 |
|
返回每列非空值的最大值。 |
|
返回每列非空值的和。 |
|
返回每列非空值的平均值。 |
|
返回每个列的非空值的标准差。 |
|
返回每列非空值的中位数。 |
|
返回所有非空元素是否均为 True |
|
返回是否任何非空元素为真 |
算术运算¶
返回一个包含每个元素自然对数值的DataFrame。 |