使用numpy的ndarray存储str类型的问题

1 问题描述

使用numpy来存储str类型的数据时,numpy会把这个数据转化为numpy.str_类型的对象。此时,我想要在对应位置上再添加字符的话,会出现字符赋值不成功的情况。情况如下所示:

1
2
3
4
5
6
7
8
X_list[i - 1, c, w] + "0"
PyDev console: starting.
'10'
X_list[i - 1, c, w]
'1'
X_list[i, c, w] = X_list[i - 1, c, w] + "0"
X_list[i, c, w]
'1'

2 问题原因

由于 numpy 中的 ndarray 要求所有数据为同一种类型,所以在创建时我使用 dtype=str。此时 numpy 会根据创建时所有元素的最大字符串长度设定 str 的类型。例如所有元素中的最大字符串长度为 11,则会将 str 的类型设置为’<U11’。此时所存储最大字符串长度就被设置为了 11,超过这个长度都会被截取,在进行赋值。并且不会抛出任何异常。

如果默认不声明字符串长度的话,最大字符串长度为1。

比如下面这个数组,每个数组元素只能放一个字符

1
leg_arr=np.empty(4,3),dtype=str)

如果不知道这一点,即使给数组元素赋个长值也白搭,只有首字符能够保存在元素里,示例:

1
2
3
leg_arr[1,3]='人生苦短 我用python'
print(leg_arr[1,3])
>>人

3 解决方案

解决办法 1:使其可接受可变长度的字符,修改 str 为 object 数据类型即可。

1
leg_arr=np.empty((4,3), dtype=object)

缺点是灵活性带来了低效率,所以比较适合数据量不大的情况。

解决办法 2:预先设定好元素的字符串长度,缺点是效率高但不够灵活,适合大数据量情况。“<U100”就是Unicode字符编码100长度以下。

1
x = np.array([], dtype="<U100")

参考链接:

https://blog.csdn.net/qq_36241012/article/details/118184807

https://blog.csdn.net/weixin_43894266/article/details/115450048


使用numpy的ndarray存储str类型的问题
https://fulequn.github.io/2023/06/Article202306202/
作者
Fulequn
发布于
2023年6月21日
许可协议