使用numpy的ndarray存储str类型的问题

1 问题描述

使用numpy来存储str类型的数据时，numpy会把这个数据转化为numpy.str_类型的对象。此时，我想要在对应位置上再添加字符的话，会出现字符赋值不成功的情况。情况如下所示：

X_list[i - 1, c, w] + "0"
PyDev console: starting.
'10'
X_list[i - 1, c, w]
'1'
X_list[i, c, w] = X_list[i - 1, c, w] + "0"
X_list[i, c, w]
'1'

2 问题原因

由于 numpy 中的 ndarray 要求所有数据为同一种类型，所以在创建时我使用 dtype=str。此时 numpy 会根据创建时所有元素的最大字符串长度设定 str 的类型。例如所有元素中的最大字符串长度为 11，则会将 str 的类型设置为’<U11’。此时所存储最大字符串长度就被设置为了 11，超过这个长度都会被截取，在进行赋值。并且不会抛出任何异常。

如果默认不声明字符串长度的话，最大字符串长度为1。

比如下面这个数组，每个数组元素只能放一个字符

1	`leg_arr=np.empty(4,3),dtype=str)`

如果不知道这一点，即使给数组元素赋个长值也白搭，只有首字符能够保存在元素里，示例：

1
2
3

leg_arr[1,3]='人生苦短 我用python'
print(leg_arr[1,3])
>>人

3 解决方案

解决办法 1：使其可接受可变长度的字符，修改 str 为 object 数据类型即可。

1	`leg_arr=np.empty((4,3), dtype=object)`

缺点是灵活性带来了低效率，所以比较适合数据量不大的情况。

解决办法 2：预先设定好元素的字符串长度，缺点是效率高但不够灵活，适合大数据量情况。“<U100”就是Unicode字符编码100长度以下。

1	`x = np.array([], dtype="<U100")`

参考链接：
https://blog.csdn.net/qq_36241012/article/details/118184807
https://blog.csdn.net/weixin_43894266/article/details/115450048

编程语言

#Python

使用numpy的ndarray存储str类型的问题

https://fulequn.github.io/2023/06/Article202306202/

作者

Fulequn

发布于

2023年6月21日

许可协议

多MEC服务器系统中联合资源分配的任务卸载方案上一篇

语音方面的项目（包含介绍）下一篇