目录

torcharrow.DataFrame

是一个 Python DataFrame 库(基于 Apache Arrow 列式内存格式构建) 用于加载、联接、聚合、筛选和以其他方式操作数据。还提供了一个类似 Pandas 的 API,自然而然地融入了 Python ML 生态系统, 并且数据科学家和 ML 工程师将熟悉,因此他们可以使用它来表达表格数据工作流 在 ML 中,例如特征工程、训练和推理预处理。

DataFrame 类和通用 API

torcharrow 的 TorchArrow 中。数据帧
DataFrame 的 API API 中。

DataFrame 的列标签。

DataFrame 的 API API 中。DTYPE

数据类型

DataFrame 的 API API 中。装置

分配 A 或将要分配的设备。

DataFrame 的 API API 中。长度

返回包含 null 值的行数

DataFrame.head (数据帧.head)

返回前 n 行。

数据帧.尾

返回最后 n 行。

DataFrame.describe 数据帧

生成描述性统计信息。

DataFrame.drop 文件

返回不带已删除列的 DataFrame。

DataFrame.rename

返回重新映射了列名的 DataFrame。

DataFrame.reorder 文件

(实验性 API)返回 DataFrame,其中列按规定顺序排列。

DataFrame.append

返回附加了值的列/数据帧。

DataFrame.isin 中

检查 dataframe 中的每个元素是否都包含在 values 中。

功能 API

DataFrame.map

根据输入对应关系映射行。

DataFrame.filter

选择 predicate 为 True 的行。

DataFrame.flatmap

根据输入对应关系将行映射到行列表 如果结果类型 != 项类型,则需要 dtype。

DataFrame.transform

与 map() 类似,但一次在小批量行上调用可调用对象。

关系 API

DataFrame.select

类似于 SQL 的 SELECT

DataFrame.where

类似于 SQL 的 where(NOT Pandas where)

DataFrame.sort 数据帧排序

按升序或降序对列/数据帧进行排序。

数据清理

DataFrame.fill_null

使用指定方法填充 null 值。

DataFrame.drop_null

返回删除了行的列/帧,其中一行包含任何或所有 null。

DataFrame.drop_duplicates

(实验性 API)从行/帧中删除重复值,但保留第一个、最后一个、无

转换

DataFrame.to_arrow

将自身转换为箭头表

DataFrame.to_tensor

转换为 PyTorch 容器(Tensor、PackedList、PackedMap 等)

DataFrame.to_pylist

转换为普通 Python 容器(标量或容器列表)

DataFrame.to_pandas

将 self 转换为 Pandas DataFrame

统计学

数据帧.min

返回每列的非 null 值的最小值。

DataFrame.max

返回每列的非 null 值的最大值。

数据帧总和

返回每列的非 null 值的总和。

DataFrame.mean 数据帧平均值

返回每列的非 null 值的平均值。

数据帧.std

返回每列的非 null 值的标准偏差。

DataFrame.median (数据帧中位数)

返回每列的非 null 值的中位数。

DataFrame.all 数据帧

返回所有非 null 元素是否为 True

DataFrame.any 数据帧

返回是否有任何非 null 元素为 True

算术运算

DataFrame.log

返回一个 DataFrame,其中包含每个元素的自然对数值。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源