Python的collections模块：数据结构的百宝箱

对话实录

小白：处理数据时，Python自带的数据结构不够用，有更强大的工具吗？

专家：那可不能错过collections模块，它提供了许多高效实用的数据结构，能大幅提升数据处理的效率与灵活性。

collections功能介绍

1. Counter：统计元素出现次数

Counter用于统计可迭代对象中元素出现的频次。比如统计文本中单词出现次数：

from collections import Counter
text = "apple banana apple cherry banana apple"
word_list = text.split()
#统计次数
word_counter = Counter(word_list)
print(word_counter)
#输出为：
Counter({'apple': 3, 'banana': 2, 'cherry': 1})text2 = "apple banana apple cherry banana apple"
word_list2 = text2.split()
#使用update函数添加另一个可迭代对象，继续统计次数
word_counter.update(word_list2)
print(word_counter)
#输出为
Counter({'apple': 6, 'banana': 4, 'cherry': 2})

2. defaultdict：带有默认值的字典

普通字典访问不存在的键会报错，defaultdict则会自动创建默认值。例如按类别统计物品数量：

from collections import defaultdict
category_items = defaultdict(int)
items = [('fruit', 'apple'), ('fruit', 'banana'), ('vegetable', 'carrot'), ('fruit', 'cherry')]
for category, item in items:category_items[category] += 1
print(category_items)
#输出为：
defaultdict(<class 'int'>, {'fruit': 3, 'vegetable': 1})

defaultdict(int)表示默认值为 0，最终输出defaultdict(<class 'int'>, {'fruit': 3,'vegetable': 1})，适用于需预先初始化值的字典场景。

3. OrderedDict：有序字典

普通字典在 Python 3.6 前无序，3.7 后虽保持插入顺序，但OrderedDict能更明确表示有序性，还有操作顺序的方法。如记录用户操作步骤：

from collections import OrderedDict
user_actions = OrderedDict()
user_actions['step1'] = 'login'
user_actions['step2'] = 'browse products'
user_actions['step3'] = 'add to cart'
user_actions['step4'] = 'checkout'
for step, action in user_actions.items():print(f"{step}: {action}")

输出严格按插入顺序展示，适用于历史记录、任务流程管理等需保持元素顺序的场景。

另外大家都知道集合有去重的功能，但是集合是无序的，去重后会导致原来的对象变得无序。此时可以通过OrderedDict保持原来的顺序。举例如下：

listA = ['orange', 'apple', 'pear', 'banana','orange']
listB = set(listA)
print(listB)
#打印结果 集合去重后元组顺序改变了
{'banana', 'pear', 'orange', 'apple'}

我们通过有序字典
collections.OrderedDict.fromkeys()功能，对列表去重并保持有序

from collections import OrderedDict
listC = list(OrderedDict.fromkeys(listA))
print(listC)
['orange', 'apple', 'pear', 'banana']

4.deque：双端队列

deque允许在队列两端高效添加和删除操作。模拟任务队列，可在队首添加紧急任务，队尾添加普通任务：

from collections import deque
task_queue = deque()task_queue.append('task1')
task_queue.append('task2')
task_queue.appendleft('urgent_task')while task_queue:task = task_queue.popleft()print(f"Processing task: {task}")

appendleft在队首添加，popleft从队首取出，在广度优先搜索、缓存管理等需双向操作的队列场景中性能更优。

5.namedtuple：具名元组

namedtuple为元组元素命名，让代码更易读。如表示学生信息：

from collections import namedtuple
Student = namedtuple('Student', ['name', 'age', 'grade'])student1 = Student('Alice', 20, 'A')
print(student1.name)
print(student1.age)
print(student1.grade)

通过属性名访问元素，数据存储和传递时很方便，适用于数据结构固定、元素含义明确的场景。

6.ChainMap：合并多个映射

ChainMap可组合多个字典或映射，形成单一视图，在处理多个配置文件等场景中有用。如合并默认和用户自定义配置字典：

from collections import ChainMap
default_config = {'color': 'blue', 'font':'sans-serif'}
user_config = {'color':'red'}combined_config = ChainMap(user_config, default_config)
print(combined_config['color'])
print(combined_config['font'])
#输出为：
red
sans-serif

访问键时先在user_config查找，不存在再在default_config查找，输出red和sans-serif 。

7.UserDict：自定义字典类

UserDict是创建自定义字典类的基类。创建不允许删除键的字典类：

from collections import UserDict
class NoDeleteDict(UserDict):def __delitem__(self, key):raise NotImplementedError("删除操作不被允许")ndd = NoDeleteDict({'key1': 'value1', 'key2': 'value2'})# 尝试删除键会引发错误
del ndd['key1']

继承UserDict并覆盖方法，可定制符合需求的字典类。

8.UserList：自定义列表类

类似UserDict，UserList用于创建自定义列表类。创建只能存储整数的列表类：

from collections import UserList
class IntList(UserList):def append(self, item):if not isinstance(item, int):raise ValueError("只能添加整数")super().append(item)
il = IntList()
il.append(1)
# 尝试添加非整数会引发错误
# il.append('not an integer')

可对列表操作进行约束和扩展，满足特定业务逻辑。

小白：哇，collections模块这么强大！

专家：熟练掌握它，你在Python数据处理上会更得心应手，快去实践吧！

常用函数及数据结构速查表

函数 / 数据结构	用法	说明
Counter	Counter(iterable)	统计可迭代对象中元素出现次数
defaultdict	defaultdict(default_factory)	带有默认值的字典，default_factory为可调用对象
OrderedDict	OrderedDict()	有序字典，保持元素插入顺序
deque	deque([iterable], maxlen=None)	双端队列，可设置最大长度maxlen
namedtuple	namedtuple('typename', 'field_names')	具名元组，typename为类型名，field_names为字段名
ChainMap	ChainMap(*maps)	合并多个映射
UserDict	class MyDict(UserDict)	用于创建自定义字典类的基类
UserList	class MyList(UserList)	用于创建自定义列表类的基类