【相似图片筛选工具】海量图片中查找相似图
相似图片,不再混乱:一款更懂你的筛选工具 ✨
对于经常与图片打交道的朋友们走都知道,要再成千上万张图片中要到2张或者几张相似的图片,是非常非常困难的。不仅仅耗时耗力,还容易出现遗漏的情况,导致大量工作功亏一篑。
一可软件开发的这款“相似图片筛选工具”,从图片感知层面理解相似度,从视觉层面取判断图片,而不是通过图片的基础信息。所以识别和筛选的结果更精准。
程序会自动把相似的图片放到一个文件夹中,如果有2组相似的图片,则分别放到2组文件夹中。以此类推。将剩余所偶的不相似图片放到另一个“不相似”分组总。

核心优势与技术路线 🧠
感知哈希 pHash:程序采用各大平台都在使用的算法:首先,将图片转为 32×32 灰度。然后做DCT,提取其中 8×8 低频信息形成 64bit 指纹;识别和筛选效率更高,更稳定(`compute_phash_pil`与`dct_2d`)
局部补丁 Hash(默认):为了可以识别出微调或裁剪的图片,程序将将图片切分为 3×3 网格,对网格生成多指纹,这样做会显著提升对微调或裁剪的鲁棒性(`compute_patch_phashes`)
ORB + RANSAC(推荐):多种算法组合,关键点匹配 + 几何一致性验证,应对旋转、缩放、轻度透视变化,从根本上找到相似图片(`compute_orb_features`,`orb_ransac_is_similar`)
BK-Tree 近邻检索:基于汉明距离的高效查询,快速发现候选相似图(`BKTree.query`)
- Union-Find 分组:将近似图片归并为稳定的集合,产出“相似组”(`UnionFind.union`,`UnionFind.groups`)
应用场景 🌍
运营与设计:对于专业的设计来说,海量素材是必备,随着工作时间的增长,大量重复素材占用空间,高效清理是一个难题。
摄影后期:连拍与小幅变焦的照片自动分组,提升挑选效率
数据标注:过滤高度相似样本,降低训练集冗余率
自媒体创作:对于矩阵来说大量的图片重复使用,是一件很危险的事情。如果确保批量发布的时候不重复调用图片,这个工具可以帮到你。
个人用户:大量的家人、孩子图片,有的时候一个工作好几张,不仅占用大量空间,清理起来也是非常麻烦。
把“相似度”变成可操作的分组结果,让大规模素材筛选回归理性与高效。它更像一个安静可靠的助手:不喧哗,只把结果分好类,留你做最后决定。✨
