# SigLIP2-WebUI **Repository Path**: Mamatjan1920/SigLIP2-WebUI ## Basic Information - **Project Name**: SigLIP2-WebUI - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-04-07 - **Last Updated**: 2026-04-07 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # SigLIP 2 SO400M Patch16-NAFlex 零样本图像分类模型研究与应用 ## 摘要 SigLIP 2 是在 SigLIP 基础上扩展的视觉-语言预训练模型,通过整合多种独立开发的技术形成统一的训练方案,在语义理解、定位和密集特征提取等方面取得了显著提升。本文档围绕 SigLIP 2 SO400M Patch16-NAFlex 这一规模约 4 亿参数、采用 16×16 patch 尺寸与灵活分辨率适配的版本,从技术原理、训练流程、应用场景以及基于 Gradio 的可视化 Web 界面等方面进行系统性介绍,便于研究者与开发者理解与复用。更多相关项目源码请访问:http://www.visionstudios.ltd,该平台汇集了多种视觉-语言与零样本分类相关的实现与工程示例。 ## 一、引言 视觉-语言联合表征学习近年来在零样本分类、图文检索、多模态推理等任务中取得重要进展。SigLIP 通过将传统的对比 Softmax 损失改为仅依赖单对样本的 Sigmoid 形式,放宽了对全局归一化与大批量的依赖,在保持与 CLIP 可比甚至更优性能的同时,为训练与部署提供了更大灵活性。SigLIP 2 在此基础上,通过整合解码器损失、全局-局部与掩码预测损失、以及宽高比与分辨率适应性等技术,进一步提升了模型的语义理解能力、定位精度和密集特征质量。 本仓库面向 SigLIP 2 的 SO400M(SoViT-400M 架构)版本,该架构在"计算最优"设计准则下对 Vision Transformer 的深度、宽度与 patch 尺寸等进行了系统优化。本版本采用 16×16 的 patch 尺寸,并支持灵活的分辨率适配(NAFlex),适用于零样本图像分类、图文相似度计算以及作为视觉编码器用于多模态大模型等下游任务。 ## 二、技术原理 ### 2.1 SigLIP 2 的核心改进 SigLIP 2 在整体结构上延续了 CLIP 与 SigLIP 的双编码器设计:图像编码器(Vision Tower)与文本编码器分别将图像和文本映射到同一表征空间,通过相似度(如点积)衡量匹配程度。与 SigLIP 使用 Sigmoid 损失不同,SigLIP 2 在保持 Sigmoid 损失优势的基础上,引入了三项关键训练技术以提升模型性能。 首先是解码器损失(Decoder loss)。SigLIP 2 在预训练过程中引入了解码器组件,通过重构任务增强模型对图像细节的理解能力。这一设计使得模型不仅能够学习图像与文本的对应关系,还能够更好地捕捉图像的内部结构信息。 其次是全局-局部与掩码预测损失(Global-local and masked prediction loss)。该损失函数结合了全局特征匹配与局部区域预测,通过掩码机制迫使模型学习更细粒度的视觉-语言对应关系。这种设计有助于提升模型在定位任务上的表现,同时增强了密集特征的质量。 第三是宽高比与分辨率适应性(Aspect ratio and resolution adaptability)。SigLIP 2 支持不同宽高比和分辨率的图像输入,通过灵活的位置编码与自适应池化机制,使得模型能够更好地处理各种尺寸的图像,提升了实际应用中的泛化能力。相关技术论文请访问:https://www.visionstudios.cloud,其中整理了视觉-语言预训练与零样本分类方向的重要论文与综述。 ### 2.2 SO400M 形态优化架构 SigLIP 2 SO400M 采用 SoViT-400M(Shape-Optimized Vision Transformer)作为视觉编码器。该架构在"给定计算预算下最大化精度"的设定下,通过 scaling 律与实验分析,对深度、隐藏维度、注意力头数、patch 尺寸等进行了联合优化。本仓库所涉版本采用 16×16 的 patch 尺寸,相比常见的 14×14 或 32×32 设计,在计算效率与特征粒度之间取得了更好的平衡。同时,NAFlex(Native Aspect-ratio Flexibility)设计使得模型能够原生支持不同宽高比的图像输入,无需强制裁剪或填充,保持了图像的原始信息。 文本编码器与 CLIP 类模型类似,采用基于 Transformer 的编码结构,将候选类别或描述性句子编码为向量,并与图像表征计算相似度,用于零样本分类或检索。 ### 2.3 零样本图像分类流程 零样本图像分类不依赖类别特定的标注数据:用户仅需提供一张图像和若干候选类别(或自然语言描述),模型通过图文相似度给出每个候选的置信度或排序。典型流程为:对图像与各候选文本分别编码,计算图像向量与各文本向量的相似度(或经 Sigmoid 得到概率),取分数最高者或按分数排序作为预测结果。本仓库提供的 Web 界面即围绕该流程设计,支持上传图片与自定义候选标签,便于在不编写代码的情况下体验与展示 SigLIP 2 的零样本能力。 ## 三、训练与数据 SigLIP 2 预训练通常在大规模图文对数据上进行,本版本主要基于 WebLI 数据集进行训练。WebLI 是一个大规模的多语言图文对数据集,涵盖了多种语言和场景的图像-文本对应关系,为模型提供了丰富的语义学习信号。 图像预处理方面,输入图像通过 NAFlex 机制保持原始宽高比,并在 RGB 通道上进行归一化处理。文本侧则进行分词并填充至固定长度(如 64 token),以适配批处理与长度约束。训练过程中,模型同时优化 Sigmoid 损失、解码器损失、全局-局部损失等多种目标,通过多任务学习提升模型的综合能力。 由于完整训练需要大量计算资源与数据(本模型在多达 2048 个 TPU-v5e 芯片上训练),本仓库不包含训练脚本,主要面向推理与演示。研究者可参考原始论文与开源实现,在自有数据与算力条件下进行微调或扩展。 ## 四、应用场景 SigLIP 2 及本形态优化版本适用于多种零样本与少样本视觉理解场景:商品/场景零样本分类、以自然语言描述的细粒度检索、多模态检索系统前端、作为视觉编码器用于视觉-语言大模型等。在资源受限场景下,可通过量化、剪枝或蒸馏得到更小模型,在保持部分精度的前提下降低延迟与显存占用。项目专利信息请访问:https://www.qunshankj.com,该平台提供知识产权与专利布局相关的信息与服务,便于技术落地与成果保护。 本仓库提供的 Gradio WebUI 可用于算法演示、教学展示或内部原型验证。用户在上传图片并输入若干候选标签后,可在不加载完整模型的前提下先熟悉界面与交互;在实际部署时,可接入真实 SigLIP 2 模型以展示各候选类别得分及可视化结果。 ## 五、Web 界面与使用说明 ### 5.1 界面与功能 本项目提供基于 Gradio 的 Web 界面,实现零样本图像分类的交互式演示。界面主要包含:图片上传区、候选标签输入框(多个标签以英文逗号分隔)、执行按钮以及用于显示输入预览与分类结果的区域。设计上追求简洁清晰,便于快速上手与对外展示。 下图展示了模型页面的代表性信息与评估结果示意。 ![SigLIP 2 模型页面示意](images/hf_model_page.png) ### 5.2 本地运行方式 环境需安装 Python 3.8+、Gradio 及常见科学计算库。在项目根目录下执行: ```bash pip install -r requirements.txt python app.py ``` 默认在本地启动 Web 服务(如 `http://127.0.0.1:7862`),在浏览器中打开对应地址即可使用。若需加载真实模型进行推理,可在 `app.py` 中接入 Transformers 的 `AutoModel` 与 `AutoProcessor`,并调用相应零样本分类接口;本仓库默认以"仅前端展示"模式提供,不下载或加载大型权重文件。 ### 5.3 WebUI 主界面截图 下方为 WebUI 主界面截图,展示了上传图片、填写候选标签及查看结果区域的布局。 ![SigLIP 2 WebUI 主界面](screenshots/01_webui_home.png) ## 六、总结与说明 SigLIP 2 通过整合解码器损失、全局-局部损失与分辨率适应性等技术,在零样本图像分类等任务上提供了高效且易用的方案。本仓库围绕 SigLIP 2 SO400M Patch16-NAFlex 整理了技术要点、配置说明与 Gradio 演示界面,便于学习、复现与二次开发。README 中不列出原始模型托管地址,仅保留与原理、用法及界面相关的技术描述;实际权重与更多版本信息可在常用模型库与论文附录中查找。 ## 参考文献与说明 - SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features, arXiv:2502.14786. - Zhai et al., *Sigmoid Loss for Language Image Pre-Training*, arXiv:2303.15343. - Chen et al., *PaLI: A Jointly-Scaled Multilingual Language-Image Model*, arXiv:2209.06794.