使用numpy的ndarray存储str类型的问题
1 问题描述
使用numpy来存储str类型的数据时,numpy会把这个数据转化为numpy.str_类型的对象。此时,我想要在对应位置上再添加字符的话,会出现字符赋值不成功的情况。情况如下所示:
1 |
|
2 问题原因
由于 numpy 中的 ndarray 要求所有数据为同一种类型,所以在创建时我使用 dtype=str。此时 numpy 会根据创建时所有元素的最大字符串长度设定 str 的类型。例如所有元素中的最大字符串长度为 11,则会将 str 的类型设置为’<U11’。此时所存储最大字符串长度就被设置为了 11,超过这个长度都会被截取,在进行赋值。并且不会抛出任何异常。
如果默认不声明字符串长度的话,最大字符串长度为1。
比如下面这个数组,每个数组元素只能放一个字符
1 |
|
如果不知道这一点,即使给数组元素赋个长值也白搭,只有首字符能够保存在元素里,示例:
1 |
|
3 解决方案
解决办法 1:使其可接受可变长度的字符,修改 str 为 object 数据类型即可。
1 |
|
缺点是灵活性带来了低效率,所以比较适合数据量不大的情况。
解决办法 2:预先设定好元素的字符串长度,缺点是效率高但不够灵活,适合大数据量情况。“<U100”就是Unicode字符编码100长度以下。
1 |
|
参考链接:
https://blog.csdn.net/qq_36241012/article/details/118184807
https://blog.csdn.net/weixin_43894266/article/details/115450048
使用numpy的ndarray存储str类型的问题
https://fulequn.github.io/2023/06/Article202306202/