目录

目录

torcharrow.DataFrame¶

torcharrow.DataFrame 是一个Python DataFrame库（基于Apache Arrow列式内存格式）用于加载、连接、聚合、过滤和处理数据。 torcharrow.DataFrame 还提供了一个类似于Pandas的API，自然地融入到Python机器学习生态系统中，对于数据科学家和机器学习工程师来说将很熟悉，因此他们可以使用它来表达在机器学习中的表格数据流程例如特征工程、训练和推理预处理。

DataFrame类和通用APIs¶

class torcharrow.DataFrame¶

DataFrame.columns¶: DataFrame的列标签。

DataFrame.dtype¶: 数据类型为 torcharrow.Column

DataFrame.device¶: 将在其上分配 torcharrow.Column 的设备。

DataFrame.length¶: 返回包含null值的行数

`DataFrame.head`	返回第一个 n 行。
`DataFrame.tail`	返回最后的 n 行。
`DataFrame.describe`	生成描述性统计。
`DataFrame.drop`	返回没有删除列的DataFrame。
`DataFrame.rename`	返回一个列名已重命名的DataFrame。
`DataFrame.reorder`	(实验性API) 返回具有指定顺序的列的数据帧。
`DataFrame.append`	返回带有附加值的列/数据框。
`DataFrame.isin`	检查数据帧中的每个元素是否包含在值中。

功能API¶

`DataFrame.map`	根据输入的对应关系映射行。
`DataFrame.filter`	选择 predicate 为 True 的行。
`DataFrame.flatmap`	将行映射到根据输入对应关系的列表，如果结果类型与项目类型不同，则需要指定数据类型。
`DataFrame.transform`	像map()一样，但每次只对行的批量调用可调函数。

关系API¶

`DataFrame.select`	类似于SQL的SELECT。
`DataFrame.where`	类似于SQL的where（NOT Pandas where）
`DataFrame.sort`	对列/数据框进行升序或降序排序。

数据清洗¶

`DataFrame.fill_null`	使用指定的方法填充缺失值。
`DataFrame.drop_null`	返回一个没有行的列/帧，其中一行有任何或所有null值。
`DataFrame.drop_duplicates`	(实验性API) 从行/帧中删除重复值，但保留第一个、最后一个和没有的。

转换¶

`DataFrame.to_arrow`	将self转换为箭头表
`DataFrame.to_tensor`	将数据转换为PyTorch容器（Tensor、PackedList、PackedMap等）。
`DataFrame.to_pylist`	将数据转换为普通的Python容器（列表或容器）
`DataFrame.to_pandas`	将self转换为Pandas DataFrame

统计信息¶

`DataFrame.min`	返回每列非空值中的最小值。
`DataFrame.max`	返回每列非空值的最大值。
`DataFrame.sum`	返回每列非空值的和。
`DataFrame.mean`	返回每列非空值的平均值。
`DataFrame.std`	返回每个列的非空值的标准差。
`DataFrame.median`	返回每列非空值的中位数。
`DataFrame.all`	返回所有非空元素是否均为 True
`DataFrame.any`	返回是否任何非空元素为真

算术运算¶

DataFrame.log

返回一个包含每个元素自然对数值的DataFrame。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源