python – 将unicode元素读入numpy数组

考虑一个名为“new.txt”的文本文件,其中包含以下元素：

μm
∂r
∆λ

在Python 2.7中,我可以通过键入以下内容来读取文件：

>>> import codecs
>>> f = codecs.open('new.txt', encoding='utf-8')
>>> lines = [line.strip() for line in f2.readlines()]
>>> lines
[u'\u03bcm', u'\u2202r', u'\u2206\u03bb']
>>> print lines[0]
μm

到现在为止还挺好.我可以通过以下方式轻松将此列表转换为numpy数组：

>>> import numpy as np
>>> arr = np.array(lines)
>>> arr
array([u'\u03bcm', u'\u2202r', u'\u2206\u03bb'], 
      dtype='<U2')

问题是,我无法通过numpy的loadtxt函数直接读取此文件：

>>> np.loadtxt('new.txt', dtype=np.unicode_)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib64/python2.7/site-packages/numpy/lib/npyio.py", line 805, in loadtxt
    X = np.array(X, dtype)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xce in position 0: ordinal not in range(128)

将此文件直接读入numpy的正确方法是什么？

谢谢.

最佳答案

在内存中,unicode字符串表示为 UCS-2或 UCS-4,具体取决于Python解释器的编译方式.您的文件在 UTF-8中编码,因此您需要重新编码它才能将其映射到NumPy阵列. loadtxt()无法为您进行重新编码 – 毕竟NumPy主要针对数值数组.

假设每一行都有相同数量的字符,您也可以使用更有效的变体

s = codecs.open("new.txt", encoding="utf-8").read()
arr = numpy.frombuffer(s, dtype="<U3")

这将包括字符串中的换行符.要不包含它们,请使用

arr = numpy.frombuffer(s.replace("\n", ""), dtype="<U2")

编辑：如果您的文件行具有不同的长度,并且您希望避免使用中间列表,则可以使用

arr = numpy.fromiter(codecs.open("new.txt", encoding="utf-8"), dtype="<U2")

不过,我不确定这是否会在内部创建一些临时列表.

点击查看更多相关文章

转载注明原文：python – 将unicode元素读入numpy数组 - 乐贴网

JAVA c c++go swift javascript Nginx UI/UE 小程序 Python C#php asp GitHub项目推荐

2024年可用、好用、值得推荐的磁力搜索引擎汇总（长期更新）

每日神器 5年前 208212

23个全网VIP影视剧解析工具（内置接口、有些支持搜索）

每日神器 4年前 5699

火车候补购票究竟啥意思？能提高抢票率吗？看完全明白了

每日神器 5年前 36

火星直播1610：已解锁超清直播源（附7个自建频道分享码）

每日神器 5年前 6654

Kubernetes集群调度

云计算 5年前 50

echarts实现渐变矩形水球图

vue.js 5年前 477

Lyft 发布最大 L5 自动驾驶预测数据集

自动驾驶 5年前 63

让游戏和应用程序在正确的 CPU 核心上运行，供对 CPU 核心的精细控制，从而优化性能。

GitHub项目推荐 6月前 140

猫影视TV115更新后空壳解决方案：新增2个影视源接口！图文演示~

每日神器 4年前 2869

python – 如何创建对象并向其添加属性？

Python 6年前 35

C类中的循环依赖

C# 6年前 39

DIYP影音无极版：畅享VIP电视直播、影视点播、4K影视、特色频道

每日神器 5年前 899

python和matplotlib并更改标记颜色

Python 6年前 149

python – 将unicode元素读入numpy数组

Python 6年前 28

一旦其一个工作符满足某个条件,就终止Python多处理程序

Python 6年前 152

如果Python中的约定是大写类,那么为什么list()不是大写的呢？这不是一个班级吗？

Python 6年前 24

python – 没有名为pyvirtualdisplay的模块

Python 7年前 45

python-GMPY2未安装,找不到mpir.h

Python 6年前 219

使用Python获取CPU温度？

Python 6年前 409

python – 向QTextEdit PyQt添加多行

Python 6年前 61

多层感知器,可视化Python中的决策边界(2D)

Python 6年前 47

python – 当用“pandas.read_hdf()”读取巨大的HDF5文件时,为什么我仍然得到MemoryError,即使我通过指定chunksize来读取块？

Python 6年前 140

python – 短语中每个单词的大写首字母

Python 6年前 123

requests.post 报Remote end closed connection without response

Python 5年前 36

热门推荐

相关推荐