目录

torcharrow.Column

A torcharrow.Column 是一个 1 维的 torch.Tensor 类似数据结构,包含 单个数据类型的元素。它还支持非数字类型,如字符串、列表、结构。

数据类型

TorchArrow 定义了以下列数据类型,这些数据类型位于模块 torcharrow.dtypes(表单下方缩写为 dt):

数据类型

数据类型(dtype)

32位浮点数

dt.float32 or dt.Float32(nullable)

64位浮点数

dt.float64 or dt.Float64(nullable)

8位有符号整数

dt.int8 or dt.Int8(nullable)

16 位有符号整数

dt.int16 or dt.Int16(nullable)

32位有符号整数

dt.int32 or dt.Int32(nullable)

64位有符号整数

dt.int64 or dt.Int64(nullable)

布尔值

dt.boolean or dt.Boolean(nullable)

字符串

dt.string or dt.String(nullable)

列表

dt.List(item_dtype, nullable)

结构

dt.Struct(fields, nullable)

列类参考

class torcharrow.Column
Column.dtype

数据类型为 torcharrow.Column

Column.device

将在其上分配 torcharrow.Column 的设备。

Column.length

返回包含null值的行数

Column.null_count

返回空值的数量

Column.head

返回第一个 n 行。

Column.tail

返回最后的 n 行。

Column.cast

将列转换为指定的数据类型

Column.is_valid_at

(实验性API) 返回索引i的数据是否有效,即非空。

Column.append

返回带有附加值的列/数据框。

Column.isin

检查每一列中的元素是否包含在值中。

Column.all

返回所有非空元素是否均为 True

Column.any

返回是否任何非空元素为真

Column.map

根据输入的对应关系映射行。

Column.filter

选择 predicate 为 True 的行。

Column.flatmap

将行映射到根据输入对应关系的列表,如果结果类型与项目类型不同,则需要指定数据类型。

Column.transform

像map()一样,但每次只对行的批量调用可调函数。

Column.fill_null

使用指定的方法填充缺失值。

Column.drop_null

返回一个没有行的列/帧,其中一行有任何或所有null值。

Column.drop_duplicates

(实验性API) 从行/帧中删除重复值,但保留第一个、最后一个和没有的。

Column.to_arrow

将self转换为箭头数组

Column.to_tensor

将数据转换为PyTorch容器(Tensor、PackedList、PackedMap等)。

Column.to_pylist

将数据转换为普通的Python容器(列表或容器)

Column.to_pandas

将 self 转换为 Pandas Series

NumericalColumn类参考

class torcharrow.NumericalColumn

NumericalColumn.abs

序列中每个元素的绝对值。

NumericalColumn.ceil

向上舍入每个值到最小的整数

NumericalColumn.floor

向下舍入每个值到最大的整数值

NumericalColumn.round

将数据中的每个值四舍五入到指定的小数位数。

NumericalColumn.log

返回一个新的列,其中包含元素的自然对数

NumericalColumn.describe

生成描述性统计。

NumericalColumn.min

返回非空值中的最小值。

NumericalColumn.max

返回非空值中的最大值。

NumericalColumn.sum

返回非空值的和。

NumericalColumn.mean

返回非空值的平均值。

NumericalColumn.std

返回数据的标准差。

NumericalColumn.median

返回数据中的中位数。

StringColumn 类参考

class torcharrow.StringColumn

istring_column.StringMethods.length

计算每一列元素的长度。

istring_column.StringMethods.slice

从每个元素中切片子字符串。

istring_column.StringMethods.split

在给定的分隔符/分隔符周围分割字符串。

istring_column.StringMethods.strip

删除首尾空白字符。

istring_column.StringMethods.isalpha

如果字符串是字母串,返回True;否则返回False。

istring_column.StringMethods.isnumeric

如果所有字符都是数字,返回True;否则返回False。

istring_column.StringMethods.isalnum

如果字符串中的所有字符都是字母数字(即字母或数字),则返回 True,否则返回 False。

istring_column.StringMethods.isdigit

如果字符串中的所有字符都是数字,返回 True;否则返回 False。

istring_column.StringMethods.isdecimal

如果字符串只包含十进制数字(从0到9),返回True;否则返回False。

istring_column.StringMethods.isspace

所有字符串中的字符都是空格,返回 True;否则返回 False。

istring_column.StringMethods.islower

如果非空字符串是小写的,返回 True;否则返回 False。

istring_column.StringMethods.isupper

如果非空字符串是大写的,返回 True;否则返回 False。

istring_column.StringMethods.istitle

如果字符串中的每个单词都以大写字母开头,返回 True;否则返回 False。

istring_column.StringMethods.lower

将列中的字符串转换为小写。

istring_column.StringMethods.upper

将列中的字符串转换为大写。

istring_column.StringMethods.startswith

测试每个字符串元素的开头是否匹配模式。

istring_column.StringMethods.endswith

测试每个字符串元素的结尾是否匹配模式。

istring_column.StringMethods.count

在每列的每个字符串中计数模式出现的次数

istring_column.StringMethods.find

返回每个字符串列中的最低索引。

istring_column.StringMethods.replace

将列中的模式替换为。

istring_column.StringMethods.match

判断每个字符串是否匹配正则表达式

istring_column.StringMethods.contains

测试每个项目,如果模式存在于字符串中,则返回布尔值。

istring_column.StringMethods.findall

在每个项目中查找所有模式的出现(请参见 re.findall())

列表列类参考

class torcharrow.ListColumn

ilist_column.ListMethods.length

计算每一列元素的长度。

ilist_column.ListMethods.slice

从每一列的元素中切片子列表

ilist_column.ListMethods.vmap

(实验性API) 向量化映射。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源