torcharrow.DataFrame¶
是一个 Python DataFrame 库(基于 Apache Arrow 列式内存格式构建)
用于加载、联接、聚合、筛选和以其他方式操作数据。
还提供了一个类似 Pandas 的 API,自然而然地融入了 Python ML 生态系统,
并且数据科学家和 ML 工程师将熟悉,因此他们可以使用它来表达表格数据工作流
在 ML 中,例如特征工程、训练和推理预处理。
DataFrame 类和通用 API¶
- 类 torcharrow 的 TorchArrow 中。数据帧¶
- DataFrame 的 API API 中。列¶
DataFrame 的列标签。
- DataFrame 的 API API 中。DTYPE¶
- DataFrame 的 API API 中。装置¶
- DataFrame 的 API API 中。长度¶
返回包含 null 值的行数
返回前 n 行。 |
|
返回最后 n 行。 |
|
生成描述性统计信息。 |
|
返回不带已删除列的 DataFrame。 |
|
返回重新映射了列名的 DataFrame。 |
|
(实验性 API)返回 DataFrame,其中列按规定顺序排列。 |
|
返回附加了值的列/数据帧。 |
|
检查 dataframe 中的每个元素是否都包含在 values 中。 |
功能 API¶
根据输入对应关系映射行。 |
|
选择 predicate 为 True 的行。 |
|
根据输入对应关系将行映射到行列表 如果结果类型 != 项类型,则需要 dtype。 |
|
与 map() 类似,但一次在小批量行上调用可调用对象。 |
关系 API¶
类似于 SQL 的 SELECT。 |
|
类似于 SQL 的 where(NOT Pandas where) |
|
按升序或降序对列/数据帧进行排序。 |
数据清理¶
使用指定方法填充 null 值。 |
|
返回删除了行的列/帧,其中一行包含任何或所有 null。 |
|
(实验性 API)从行/帧中删除重复值,但保留第一个、最后一个、无 |
转换¶
将自身转换为箭头表 |
|
转换为 PyTorch 容器(Tensor、PackedList、PackedMap 等) |
|
转换为普通 Python 容器(标量或容器列表) |
|
将 self 转换为 Pandas DataFrame |
统计学¶
返回每列的非 null 值的最小值。 |
|
返回每列的非 null 值的最大值。 |
|
返回每列的非 null 值的总和。 |
|
返回每列的非 null 值的平均值。 |
|
返回每列的非 null 值的标准偏差。 |
|
返回每列的非 null 值的中位数。 |
|
返回所有非 null 元素是否为 True |
|
返回是否有任何非 null 元素为 True |
算术运算¶
返回一个 DataFrame,其中包含每个元素的自然对数值。 |