欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 会展 > 重复图片查找:巧用Python和OpenCV进行图像哈希与汉明距离检测以从海量图片中找出重复图片

重复图片查找:巧用Python和OpenCV进行图像哈希与汉明距离检测以从海量图片中找出重复图片

2025/12/11 9:37:31 来源:https://blog.csdn.net/wcl291121957/article/details/140608980  浏览:    关键词:重复图片查找:巧用Python和OpenCV进行图像哈希与汉明距离检测以从海量图片中找出重复图片

重复图片查找:巧用Python和OpenCV进行图像哈希与汉明距离检测以从海量图片中找出重复图片

  • 1. 导言
  • 2. 环境准备
  • 3. 图像哈希(pHash)原理
  • 4. 汉明距离原理
  • 5. 代码实现
    • 导入必要的库
    • 图像哈希计算函数
    • 汉明距离计算函数
    • 查找重复图片函数
    • 示例使用

在处理大量图片数据时,重复图片的出现是一个常见的问题。重复图片不仅浪费存储空间,还可能影响数据分析的准确性。本文将介绍如何使用Python和OpenCV库,通过图像哈希(pHash)和汉明距离(Hamming Distance)来检测重复图片。

1. 导言

在大规模图像处理中,重复图片的检测和移除是一个常见的需求。为了高效地实现这一目标,我们可以使用图像哈希算法。图像哈希是一种将图像内容映射到固定长度的二进制字符串的技术,可以用来快速比较图像的相似性。

在本文中,我们将使用感知哈希(pHash)算法来计算图像的哈希值,并通过汉明距离来衡量不同图像哈希值之间的相似性。

2. 环境准备

首先,我们需要确保已经安装了必要的软件和库。本文使用的主要库包括:

  • OpenCV:用于图像处理
  • NumPy:用于数值计算
  • os:用于文件和目录操作
  • collections:用于字典操作

可以使用以下命令安装这些库:

pip install opencv-python numpy

3. 图像哈希(pHash)原理

感知哈希(pHash,Perceptual Hash)是一种基于图像内容特征的哈希算法。它通过以下几个步骤生成图像的哈希值:

  1. 将图像转换为灰度图。
  2. 缩放图像到指定大小(例如8x8或16x16)。
  3. 计算图像像素的平均值。
  4. 将每个像素与平均值比较,大于平均值的像素赋值为1,小于平均值的像素赋值为0。
  5. 将比较结果按顺序连接成一个二进制字符串,即为图像的哈希值。

4. 汉明距离原理

汉明距离(Hamming Distance)用于衡量两个二进制字符串之间的差异。具体来说,汉明距离是两个字符串对应位置上不同字符的个数。例如,字符串“1010”和“1001”的汉明距离为2。

在图像哈希检测中,汉明距离越小,表示图像越相似。

5. 代码实现

导入必要的库

import cv2
import numpy as np
import os
from collections import defaultdict

图像哈希计算函数

该函数用于计算图像的感知哈希值。

def calculate_phash(image_path, hash_size=16):# 读取图像并转换为灰度图image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)if image is None:raise ValueError(f"Image not found: {image_path}")# 缩放到指定大小image = cv2.resize(image, (hash_size, hash_size))# 计算平均值avg = np.mean(image)# 生成哈希值phash = ''.join(['1' if pixel > avg else '0' for row in image for pixel in row])return phash

汉明距离计算函数

该函数用于计算两个二进制字符串之间的汉明距离。

def hamming_distance(hash1, hash2):return sum(c1 != c2 for c1, c2 in zip(hash1, hash2))

查找重复图片函数

该函数遍历指定文件夹中的所有图片,计算每张图片的哈希值,并根据汉明距离查找重复图片。

def find_duplicate_images(image_folder, hash_size=8, distance_threshold=5):phashes = defaultdict(list)for image_name in os.listdir(image_folder):image_path = os.path.join(image_folder, image_name)phash = calculate_phash(image_path, hash_size)phashes[phash].append(image_name)duplicates = []for hash_values in phashes.values():if len(hash_values) > 1:duplicates.append(hash_values)return duplicates

示例使用

下面的代码展示了如何使用上述函数查找指定文件夹中的重复图片。

# 示例使用
image_folder = r'D:\JupyterNotebook\extract_fire_pic_v1'
duplicates = find_duplicate_images(image_folder)if duplicates:for group in duplicates:print("Duplicate group:", group)
else:print("No duplicates found.")

在此处,将r'D:\JupyterNotebook\extract_fire_pic_v1'替换为你的图片存放文件夹即可。

例如我在r'D:\JupyterNotebook\same_pic'下有如下一些照片:
在这里插入图片描述
通过以上代码运行后,跑车的结果如下:
在这里插入图片描述
可以看到相同的图片已经被分到同一组中去了。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词