5. 数据结构¶

本章详细讲述一些你已经学过的知识，并补充一些新内容。

5.1. 列表的更多特性¶

列表数据类型还有更多的方法。这里是列表对象方法的清单：

list.append(x): 添加一个元素到列表的末尾。相当于 a[len(a):] = [x].

list.extend(L): 将给定列表L中的所有元素附加到原列表a的末尾。相当于 a[len(a):] = L.

list.insert(i, x): 在给定位置插入一个元素。第一个参数为被插入元素的位置索引，因此 a.insert(0, x) 在列表头插入值， a.insert(len(a), x)相当于 a.append(x).

list.remove(x): 删除列表中第一个值为 x 的元素。如果没有这样的项目则会有一个错误。

list.pop([i]): 删除列表中给定位置的元素并返回它。如果没有给定位置，a.pop()将会删除并返回列表中的最后一个元素。（i 两边的方括号表示这个参数是可选的，而不是要你输入方括号。你会在 Python 参考库中经常看到这种表示法)。

list.clear(): 删除列表中所有的元素。相当于 del a[:].

list.index(x): 返回列表中第一个值为 x 的元素的索引。如果没有这样的元素将会报错。

list.count(x): 返回列表中 x 出现的次数。

list.sort(key=None, reverse=False): 排序列表中的项 (参数可被自定义, 参看 sorted() ).

list.reverse(): 列表中的元素按位置反转。

list.copy(): 返回列表的一个浅拷贝。相当于 a[:].

列表方法示例：

>>> a = [66.25, 333, 333, 1, 1234.5]
>>> print(a.count(333), a.count(66.25), a.count('x'))
2 1 0
>>> a.insert(2, -1)
>>> a.append(333)
>>> a
[66.25, 333, -1, 333, 1, 1234.5, 333]
>>> a.index(333)
1
>>> a.remove(333)
>>> a
[66.25, -1, 333, 1, 1234.5, 333]
>>> a.reverse()
>>> a
[333, 1234.5, 1, 333, -1, 66.25]
>>> a.sort()
>>> a
[-1, 1, 66.25, 333, 333, 1234.5]
>>> a.pop()
1234.5
>>> a
[-1, 1, 66.25, 333, 333]

你可能已经注意以下方法 insert、 remove 或 sort 只修改列表且没有可打印的返回值 — — 他们返回默认 None。[1] 这是Python里可变数据结构的设计原则。

5.1.1. 列表作为栈使用¶

列表方法使得将列表用作堆栈非常容易，其中添加的最后一个元素是可提取的第一个元素（“last-in，first-out”）。使用 append()添加项到栈顶。使用无参的 pop() 从栈顶检出项。例如：

>>> stack = [3, 4, 5]
>>> stack.append(6)
>>> stack.append(7)
>>> stack
[3, 4, 5, 6, 7]
>>> stack.pop()
7
>>> stack
[3, 4, 5, 6]
>>> stack.pop()
6
>>> stack.pop()
5
>>> stack
[3, 4]

5.1.2. 列表作为队列使用¶

列表也有可能被用来作队列——先添加的元素被最先取出 (“先进先出”)；然而列表用作这个目的相当低效。因为在列表的末尾添加和弹出元素非常快，但是在列表的开头插入或弹出元素却很慢 (因为所有的其他元素必须向右或向左移一位)。

若要实现一个队列， collections.deque 被设计用于快速地从两端操作。例如：

>>> from collections import deque
>>> queue = deque(["Eric", "John", "Michael"])
>>> queue.append("Terry")           # Terry arrives
>>> queue.append("Graham")          # Graham arrives
>>> queue.popleft()                 # The first to arrive now leaves
'Eric'
>>> queue.popleft()                 # The second to arrive now leaves
'John'
>>> queue                           # Remaining queue in order of arrival
deque(['Michael', 'Terry', 'Graham'])

5.1.3. 列表推导式¶

列表推导式提供一个生成列表的简洁方法。应用程序通常会从一个序列的每个元素的操作结果生成新的列表，或者生成满足特定条件的元素的子序列。

例如，假设我们要创建一个平方数列表，如：

>>> squares = []
>>> for x in range(10):
...     squares.append(x**2)
...
>>> squares
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

注意，上面这个创建（或者覆盖）了一个名为x的变量，它在循环结束时仍然存在。我们可以计算没有任何副作用的平方数列表：

squares = list(map(lambda x: x**2, range(10)))

或者，等价地:

squares = [x**2 for x in range(10)]

上面这个方法更加简明且易读。

列表推导式由一对方括号组成，方括号包含一个表达式，其后跟随一个for子句，然后是零个或多个for或if子句。结果将是一个新的列表，其值来自将表达式在其后的for和if子句的上下文中求值得到的结果。例如，下面的 listcomp 组合两个列表中不相等的元素：

>>> [(x, y) for x in [1,2,3] for y in [3,1,4] if x != y]
[(1, 3), (1, 4), (2, 3), (2, 1), (2, 4), (3, 1), (3, 4)]

它等效于：

>>> combs = []
>>> for x in [1,2,3]:
...     for y in [3,1,4]:
...         if x != y:
...             combs.append((x, y))
...
>>> combs
[(1, 3), (1, 4), (2, 3), (2, 1), (2, 4), (3, 1), (3, 4)]

注意这两个代码片段中，for和if语句的顺序是如何保持一致的。

如果表达式是一个元组（例如，前面示例中的(x, y)），它必须位于圆括号中。

>>> vec = [-4, -2, 0, 2, 4]
>>> # create a new list with the values doubled
>>> [x*2 for x in vec]
[-8, -4, 0, 4, 8]
>>> # filter the list to exclude negative numbers
>>> [x for x in vec if x >= 0]
[0, 2, 4]
>>> # apply a function to all the elements
>>> [abs(x) for x in vec]
[4, 2, 0, 2, 4]
>>> # call a method on each element
>>> freshfruit = ['  banana', '  loganberry ', 'passion fruit  ']
>>> [weapon.strip() for weapon in freshfruit]
['banana', 'loganberry', 'passion fruit']
>>> # create a list of 2-tuples like (number, square)
>>> [(x, x**2) for x in range(6)]
[(0, 0), (1, 1), (2, 4), (3, 9), (4, 16), (5, 25)]
>>> # the tuple must be parenthesized, otherwise an error is raised
>>> [x, x**2 for x in range(6)]
  File "<stdin>", line 1, in ?
    [x, x**2 for x in range(6)]
               ^
SyntaxError: invalid syntax
>>> # flatten a list using a listcomp with two 'for'
>>> vec = [[1,2,3], [4,5,6], [7,8,9]]
>>> [num for elem in vec for num in elem]
[1, 2, 3, 4, 5, 6, 7, 8, 9]

列表推导式可以包含复杂的表达式和嵌套的函数：

>>> from math import pi
>>> [str(round(pi, i)) for i in range(1, 6)]
['3.1', '3.14', '3.142', '3.1416', '3.14159']

5.1.4. 嵌套的列表推导式¶

列表推导式的第一个表达式可以是任何表达式，包括另外一个列表推导式。

考虑下面由三个长度为 4 的列表组成的 3x4 矩阵：

>>> matrix = [
...     [1, 2, 3, 4],
...     [5, 6, 7, 8],
...     [9, 10, 11, 12],
... ]

下面的列表推导式将转置行和列：

>>> [[row[i] for row in matrix] for i in range(4)]
[[1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12]]

正如在前一节中我们所见，嵌套的列表推导式在它后面的for上下文中求值，所以这个例子等效于：

>>> transposed = []
>>> for i in range(4):
...     transposed.append([row[i] for row in matrix])
...
>>> transposed
[[1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12]]

展开后，和下面的代码相同：

>>> transposed = []
>>> for i in range(4):
...     # the following 3 lines implement the nested listcomp
...     transposed_row = []
...     for row in matrix:
...         transposed_row.append(row[i])
...     transposed.append(transposed_row)
...
>>> transposed
[[1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12]]

在实际中，与复杂的控制流比起来，你应该更喜欢内置的函数。zip()函数对这个使用场景做得非常好：

>>> list(zip(*matrix))
[(1, 5, 9), (2, 6, 10), (3, 7, 11), (4, 8, 12)]

参见解开参数列表中关于这一行中的星号的详细信息。

5.2. `del` 语句¶

有一个方法可以根据索引而不是值从列表中删除一个元素：del语句。这跟pop()方法不同，后者会返回一个值。del语句也可以用于从列表中删除片段或清除整个列表（先前我们通过将一个空列表赋值给这个片段来达到此目的）。例如：

>>> a = [-1, 1, 66.25, 333, 333, 1234.5]
>>> del a[0]
>>> a
[1, 66.25, 333, 333, 1234.5]
>>> del a[2:4]
>>> a
[1, 66.25, 1234.5]
>>> del a[:]
>>> a
[]

del 也可以用于删除整个变量︰

>>> del a

如果再次对变量a进行引用将引起错误（至少在对变量a再次赋值前）。在后文中我们将会发现del还有其它的用途。

5.3. 元组和序列¶

我们已经看到列表和字符串具有很多共同的属性，如索引和切片操作。有两种序列数据类型（参见序列类型——列表、元组、range）。因为 Python 是一个正在不断进化的语言，其他的序列类型也可能被添加进来。还有另一种标准序列数据类型：元组。

元组由一组用逗号分隔的值组成，例如：

>>> t = 12345, 54321, 'hello!'
>>> t[0]
12345
>>> t
(12345, 54321, 'hello!')
>>> # Tuples may be nested:
... u = t, (1, 2, 3, 4, 5)
>>> u
((12345, 54321, 'hello!'), (1, 2, 3, 4, 5))
>>> # Tuples are immutable:
... t[0] = 88888
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'tuple' object does not support item assignment
>>> # but they can contain mutable objects:
... v = ([1, 2, 3], [3, 2, 1])
>>> v
([1, 2, 3], [3, 2, 1])

正如你所见，在输出中，元组总是位于圆括号中，所以嵌套的元组可以正确解析；输入的时候它们的周围可以放置圆括号也可以不放，然而圆括号经常是必要的（如果元组是一个更大的表达式的一部分）。不能给元组中单独的一个元素赋值，不过可以创建包含可变对象（例如列表）的元组。

虽然元组看起来类似于列表，它们经常用于不同的场景和不同的目的。元组是不可变的，通常包含各种各样的元素，这些元素通过分拆（参见本节的后面部分）或索引（或甚至是属性namedtuples）访问。列表是可变的，它们的元素通常是相同类型，并通过迭代列表来访问。

一个特殊的问题是构造包含0个或1个元素的元组：为了实现这种情况，语法上有一些奇怪。空的元组通过一对空的圆括号构造；只有一个元素的元组通过一个元素跟随一个逗号构造（仅用圆括号把一个值括起来是不够的）。丑陋，但是有效。例如：

>>> empty = ()
>>> singleton = 'hello',    # <-- note trailing comma
>>> len(empty)
0
>>> len(singleton)
1
>>> singleton
('hello',)

语句t = 12345, 54321, 'hello!'是元组封装的一个例子：值12345、54321和'hello!'被一起分封装在一个元组中。其逆操作也是可以的：

>>> x, y, z = t

这被称为序列分拆再恰当不过了，且可以用于右边的任何序列。序列分拆要求在等号的左侧有与序列中的元素一样多的变量。注意多重赋值只是同时进行元组封装和序列分拆。

5.4. 集合¶

Python 还包含了一个数据类型集合。集合中的元素不会重复且没有顺序。集合的基本用途包括成员测试和消除重复条目。集合对象也支持数学运算，如并，交，差和对称差。

花括号或者set()函数可以用来创建集合。注意，你必须使用set()创建一个空的集合，而不能用{}；后面这种写法创建一个空的字典，我们将在下一节讨论这个数据结构。

这里是一个简短的演示：

>>> basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}
>>> print(basket)                      # show that duplicates have been removed
{'orange', 'banana', 'pear', 'apple'}
>>> 'orange' in basket                 # fast membership testing
True
>>> 'crabgrass' in basket
False

>>> # Demonstrate set operations on unique letters from two words
...
>>> a = set('abracadabra')
>>> b = set('alacazam')
>>> a                                  # unique letters in a
{'a', 'r', 'b', 'c', 'd'}
>>> a - b                              # letters in a but not in b
{'r', 'd', 'b'}
>>> a | b                              # letters in either a or b
{'a', 'c', 'r', 'd', 'b', 'm', 'z', 'l'}
>>> a & b                              # letters in both a and b
{'a', 'c'}
>>> a ^ b                              # letters in a or b but not both
{'r', 'd', 'b', 'm', 'z', 'l'}

类似于列表推导式，集合也支持推导式：

>>> a = {x for x in 'abracadabra' if x not in 'abc'}
>>> a
{'r', 'd'}

5.5. 字典¶

另一个有用的Python内置数据类型是字典（参见映射类型——字典）。在其它语言中字典有时候被称为“associative memories” 或者“associative arrays”。与由数字索引的序列不同，字典是依据键索引的，键可以是任意不可变的类型；字符串和数字始终能作为键。元组可以用作键，如果它们只包含字符串、数字或元组；如果一个元组直接或间接地包含任何可变对象，它不能用作键。不能使用列表作为键，因为列表可以使用索引赋值、切片赋值或append()和extend()方法在原变量上修改。

理解字典的最佳方式是把它看做无序的键:值对集合，要求是键必须是唯一的（在同一个字典内）。一对空的花括号创建一个空的字典：{}。将用逗号分隔的键:值对序列放置在花括号中将添加初始的键:值对到字典中；这也是字典写到输出中的方式。

字典的主要操作是依据键来存取值。还可以通过del删除一个键:值对。如果使用已在使用的键进行存储，则会忘记与该键相关联的旧值。使用不存在的键提取值时会出错。

在字典上执行list(d.keys())将返回字典中用到所有的键的一个列表，但是没有顺序（如果想要排序，只需使用sorted(d.keys())）。[2]若要检查一个键是否在字典中，可以使用in关键字。

下面是一个使用字典的小示例：

>>> tel = {'jack': 4098, 'sape': 4139}
>>> tel['guido'] = 4127
>>> tel
{'sape': 4139, 'guido': 4127, 'jack': 4098}
>>> tel['jack']
4098
>>> del tel['sape']
>>> tel['irv'] = 4127
>>> tel
{'guido': 4127, 'irv': 4127, 'jack': 4098}
>>> list(tel.keys())
['irv', 'guido', 'jack']
>>> sorted(tel.keys())
['guido', 'irv', 'jack']
>>> 'guido' in tel
True
>>> 'jack' not in tel
False

dict()构造函数直接从键-值对序列构建字典：

>>> dict([('sape', 4139), ('guido', 4127), ('jack', 4098)])
{'sape': 4139, 'jack': 4098, 'guido': 4127}

此外，字典推导式可以用于从任意键和值表达式创建字典：

>>> {x: x**2 for x in (2, 4, 6)}
{2: 4, 4: 16, 6: 36}

当键都是简单的字符串时，通过关键字参数指定键-值对有时会更为方便：

>>> dict(sape=4139, guido=4127, jack=4098)
{'sape': 4139, 'jack': 4098, 'guido': 4127}

5.6.循环的技巧¶

当循环遍历字典时，键和对应的值可以使用items()方法同时提取出来。

>>> knights = {'gallahad': 'the pure', 'robin': 'the brave'}
>>> for k, v in knights.items():
...     print(k, v)
...
gallahad the pure
robin the brave

当遍历一个序列时，使用enumerate()函数可以同时得到位置索引和对应的值。

>>> for i, v in enumerate(['tic', 'tac', 'toe']):
...     print(i, v)
...
0 tic
1 tac
2 toe

同时遍历两个或更多的序列，使用zip()函数可以成对读取元素。

>>> questions = ['name', 'quest', 'favorite color']
>>> answers = ['lancelot', 'the holy grail', 'blue']
>>> for q, a in zip(questions, answers):
...     print('What is your {0}?  It is {1}.'.format(q, a))
...
What is your name?  It is lancelot.
What is your quest?  It is the holy grail.
What is your favorite color?  It is blue.

要反向遍历一个序列，首先正向生成这个序列，然后调用reversed()函数。

>>> for i in reversed(range(1, 10, 2)):
...     print(i)
...
9
7
5
3
1

要按顺序循环一个序列，请使用sorted()函数，返回一个新的排序的列表，同时保留源不变。

>>> basket = ['apple', 'orange', 'apple', 'pear', 'orange', 'banana']
>>> for f in sorted(set(basket)):
...     print(f)
...
apple
banana
orange
pear

如果在遍历列表的时候同时想改变它，创建一个新的列表会更简单更安全。

>>> import math
>>> raw_data = [56.2, float('NaN'), 51.7, 55.3, 52.5, float('NaN'), 47.8]
>>> filtered_data = []
>>> for value in raw_data:
...     if not math.isnan(value):
...         filtered_data.append(value)
...
>>> filtered_data
[56.2, 51.7, 55.3, 52.5, 47.8]

5.7. 深入条件控制¶

while和if语句中使用的条件可以包含任意的操作，而不仅仅是比较。

比较操作符in和not in检查一个值是否在一个序列中出现（不出现）。is和is not比较两个对象是否为相同的对象；这只对列表这样的可变对象比较重要。所有比较运算符都具有相同的优先级，低于所有数值运算符。

可以级联比较。例如，a < b == c测试a是否小于b并且b是否等于c。

可以使用布尔运算符and和or组合，比较的结果（或任何其他的布尔表达式）可以用not取反。这些操作符的优先级又低于比较操作符；它们之间，not 优先级最高，or 优先级最低，所以 A and not B or C 等效于 (A and (not B)) or C。与往常一样，可以使用括号来表示所需的组合。

布尔运算符and 和 or 是所谓的短路运算符：依参数从左向右求值，结果一旦确定就停止。例如，如果A 和 C 都为真，但B是假， A and B and C 将不计算表达式 C。当用作一个普通值而非逻辑值时，短路操作符的返回值通常是最后一个计算的。

可以把比较或其它逻辑表达式的返回值赋给一个变量。例如，

>>> string1, string2, string3 = '', 'Trondheim', 'Hammer Dance'
>>> non_null = string1 or string2 or string3
>>> non_null
'Trondheim'

注意 Python 与 C 不同，在表达式内部不能赋值。C程序员可能会抱怨这一点，但它避免了C程序中常见的一类问题：在表达式中输入=而真正的意图是==。

5.8. 序列和其它类型的比较¶

序列对象可以与具有相同序列类型的其他对象相比较。比较按照 字典序 进行：首先比较两个序列的首元素，如果不同，就决定了比较的结果；如果相同，就比较后面两个元素，依此类推，直到其中一个序列穷举完。如果要比较的两个元素本身就是同一类型的序列，就按字典序递归比较。如果两个序列的所有元素都相等，就认为序列相等。如果一个序列是另一个序列的初始子序列，较短的序列就小于另一个。字符串的词典序使用Unicode码点数字来排序单个字符。下面是同类型序列之间比较的一些例子：

(1, 2, 3)              < (1, 2, 4)
[1, 2, 3]              < [1, 2, 4]
'ABC' < 'C' < 'Pascal' < 'Python'
(1, 2, 3, 4)           < (1, 2, 4)
(1, 2)                 < (1, 2, -1)
(1, 2, 3)             == (1.0, 2.0, 3.0)
(1, 2, ('aa', 'ab'))   < (1, 2, ('abc', 'a'), 4)

注意使用< 或 >比较不同类型的对象也是合法的，只要对象具有恰当的比较方法。例如，不同的数字类型按照它们的数值比较，所以 0 等于 0.0，等等。否则，解释器将引发一个TypeError异常，而不是给出一个随便的顺序。

脚注

[1]	其它语言可能返回这个可变的对象，这样允许方法的级联，例如`d->insert("a")->remove("b")->sort();`。

[2]	调用`d.keys()`将返回一个字典视图对象。它支持成员测试和迭代操作，但是它的内容不是独立于原始字典的——它只是一个(基于原始字典的)视图。

5. 数据结构¶

5.1. 列表的更多特性¶

5.1.1. 列表作为栈使用¶

5.1.2. 列表作为队列使用¶

5.1.3. 列表推导式¶

5.1.4. 嵌套的列表推导式¶

5.2. `del` 语句¶

5.3. 元组和序列¶

5.4. 集合¶

5.5. 字典¶

5.6.循环的技巧¶

5.7. 深入条件控制¶

5.8. 序列和其它类型的比较¶

表的内容

上一主题

下一主题

当前页

5. 数据结构¶

5.1. 列表的更多特性¶

5.1.1. 列表作为栈使用¶

5.1.2. 列表作为队列使用¶

5.1.3. 列表推导式¶

5.1.4. 嵌套的列表推导式¶

5.2. del 语句¶

5.3. 元组和序列¶

5.4. 集合¶

5.5. 字典¶

5.6.循环的技巧¶

5.7. 深入条件控制¶

5.8. 序列和其它类型的比较¶

5.2. `del` 语句¶