目录

torcharrow.DataFrame

torcharrow.DataFrame 是一个Python DataFrame库(基于Apache Arrow列式内存格式) 用于加载、连接、聚合、过滤和处理数据。 torcharrow.DataFrame 还提供了一个类似于Pandas的API,自然地融入到Python机器学习生态系统中, 对于数据科学家和机器学习工程师来说将很熟悉,因此他们可以使用它来表达在机器学习中的表格数据流程 例如特征工程、训练和推理预处理。

DataFrame类和通用APIs

class torcharrow.DataFrame
DataFrame.columns

DataFrame的列标签。

DataFrame.dtype

数据类型为 torcharrow.Column

DataFrame.device

将在其上分配 torcharrow.Column 的设备。

DataFrame.length

返回包含null值的行数

DataFrame.head

返回第一个 n 行。

DataFrame.tail

返回最后的 n 行。

DataFrame.describe

生成描述性统计。

DataFrame.drop

返回没有删除列的DataFrame。

DataFrame.rename

返回一个列名已重命名的DataFrame。

DataFrame.reorder

(实验性API) 返回具有指定顺序的列的数据帧。

DataFrame.append

返回带有附加值的列/数据框。

DataFrame.isin

检查数据帧中的每个元素是否包含在值中。

功能API

DataFrame.map

根据输入的对应关系映射行。

DataFrame.filter

选择 predicate 为 True 的行。

DataFrame.flatmap

将行映射到根据输入对应关系的列表,如果结果类型与项目类型不同,则需要指定数据类型。

DataFrame.transform

像map()一样,但每次只对行的批量调用可调函数。

关系API

DataFrame.select

类似于SQL的SELECT

DataFrame.where

类似于SQL的where(NOT Pandas where)

DataFrame.sort

对列/数据框进行升序或降序排序。

数据清洗

DataFrame.fill_null

使用指定的方法填充缺失值。

DataFrame.drop_null

返回一个没有行的列/帧,其中一行有任何或所有null值。

DataFrame.drop_duplicates

(实验性API) 从行/帧中删除重复值,但保留第一个、最后一个和没有的。

转换

DataFrame.to_arrow

将self转换为箭头表

DataFrame.to_tensor

将数据转换为PyTorch容器(Tensor、PackedList、PackedMap等)。

DataFrame.to_pylist

将数据转换为普通的Python容器(列表或容器)

DataFrame.to_pandas

将self转换为Pandas DataFrame

统计信息

DataFrame.min

返回每列非空值中的最小值。

DataFrame.max

返回每列非空值的最大值。

DataFrame.sum

返回每列非空值的和。

DataFrame.mean

返回每列非空值的平均值。

DataFrame.std

返回每个列的非空值的标准差。

DataFrame.median

返回每列非空值的中位数。

DataFrame.all

返回所有非空元素是否均为 True

DataFrame.any

返回是否任何非空元素为真

算术运算

DataFrame.log

返回一个包含每个元素自然对数值的DataFrame。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源