# youtu-tip **Repository Path**: erxat73/youtu-tip ## Basic Information - **Project Name**: youtu-tip - **Description**: No description available - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-02-11 - **Last Updated**: 2026-02-11 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

Youtu Tip Header Zh

English | 主页 | Tip 简介 | 使用指南 | 更多技巧 | Youtu-Agent | Youtu-LLM | 性能

在 YouTube 上观看
Tip 是一个主动式端侧AI助手,一键调用,智能地理解您当前的工作内容。Tip 是 Youtu-Agent 的一个更易于使用的可视化应用,它集成了桌面自动化、智能体工具、上下文补全等功能。它完全开源,支持离线设备使用,并保障您的隐私安全。 Tip 由自研的一系列轻量级模型驱动: - Youtu-LLM:1.96B 的小巧大模型,强悍原生智能体能力。 > [🤗 模型](https://huggingface.co/collections/tencent/youtu) | [📑 技术报告](https://arxiv.org/abs/2512.24618) | [🚀 快速入门](youtu-llm/README_CN.md) - Youtu-VL: 基于 Youtu-LLM-4B 的多模态大模型,具备全面的视觉感知能力。 > [🤗 模型](https://huggingface.co/collections/tencent/youtu) | [📑 技术报告](https://arxiv.org/abs/2601.19798) | [🚀 快速入门](https://github.com/TencentCloudADP/youtu-vl/blob/main/README.md) 你也可以随时将模型替换为你喜欢的任何其他模型。 --- ## Tip 是什么 ### Tip 的核心特点 我们希望 Tip 注重于「更好的交互、更安全的隐私、更全面的功能」: - **一个按键,就是 AI 的超级入口**:我们希望用户通过最低成本的交互,就能轻松感受大模型的能力。因此,按下热键、选中文本或者图像,Tip 就已经为你准备好相关内容。我们致力于打造更智能的 Spotlight 入口,带来更便捷的智能体验。 - **端侧模型,百分百的隐私**:我们支持完全离线的调用,使用本地的模型服务,所有数据和处理都接入用户本地的大模型服务。我们为端侧提供了 Youtu-llm 系列模型,具有良好的性能表现和 Agent 能力,为理想的工作保驾护航。 - **读文件、看网页,通通在行**:我们提供了 GUI Agent 和 Youtu Agent 两方面能力,不仅能够支持模拟鼠标/键盘来实现桌面操纵,还能接入智能体、MCP 服务器和诸多工具,实现更加复杂的任务,在本地运行一个多功能智能体。 - **桌面新技能,一学就掌握**:我们为 GUI Agent 设计了一种「技能」机制,允许 Tip 从用户教会它的方法来学习新技能。例如,教会大模型如何「执行具体的数据整理」、「使用用户特定工具执行任务」等,定制化属于你的桌面自动化技能。 ### Tip 的诞生背景 - **数据与隐私安全**:现有的诸多大模型智能体应用,都默认通过云端服务器处理数据。面对一些隐私场景如社交平台,用户或许不希望屏幕内容被发送到云端大模型,而是希望通过安全、隐私的端侧方案来处理对应的数据。 - **交互的「最后一公里」**:大模型应用的入口普遍是一个聊天框,或者需要用户打字输入需求。我们期待一种更智能的上下文补全方式,用户无需手动打字、复制粘贴、上传图片,而是由应用本身来理解用户目前所处的上下文内容,自动补全上下文、理解意图、提供建议,减少用户的打字成本,解决交互的「最后一公里」。 - **端侧智能体环境**:目前大部分智能体运行的环境都位于云端,例如深度研究等功能,用户难以实际使用智能体来执行本地相关任务,例如让大模型「理解和整理本地文件」,「查一下社交平台的聊天内容」等。我们希望提供一个成熟的框架与环境,支持用户使用更全能的智能体。 ## 怎样使用 Tip ### 安装包 我们提供了下载链接,点击下载:[GitHub Release](https://github.com/TencentCloudADP/youtu-tip/releases) > Tip 目前仅支持M系列芯片的 MacOS 设备,更多类型设备正在火速适配和打包中 下载后,请打开权限即可使用: - 首次启动前需要开启屏幕录制、辅助功能等权限,确保快捷键与截图正常工作。 > 如果列表里面没有显示 Tip,请点击列表左下角的 + 号,找到并添加 Tip。权限声明:申请“辅助功能”权限仅用于获得当前用户选中内容、模拟键盘鼠标操作,申请“录屏与系统录音”权限仅用于屏幕区域截图。 - 按 `ctrl + shift` 激活 Tip,开始使用

插图:隐私权限打开

### 快速体验 您可以在「设置 - 模型」页面添加模型,包括端侧离线模型(使用 Ollama 服务)、OpenAI SDK 标准接口模型(本地或在线模型)。 快速体验 Tip 的三种调用方式: - 按下 ctrl + shift 按键,弹出对话窗口,可以直接与 Tip 对话问答; - 先选中一段文字,然后按下 ctrl + shift 按键,Tip 会感知已经选中的内容,并可以直接基于内容进行继续对话; - 长按 ctrl + shift 按键,会进入截图模式:保持按键不松开时,可以用鼠标拖拽选择一个区域;放开按键,Tip 就可以感知到已经选中的图像区域,并且可以理解并继续对话。 ## Tip 的更多技巧 ### GUI skills 我们推出类似于 Claude skills 的使用技巧:可以教会大模型如何操作电脑,并且让它记住和学会相关技能,来在日后更好地实现类似的操作。例如,教会大模型如何「搜索最便宜的机票」:先打开相关网页,然后点击「特价机票」,并且按价格排序。 您可以在「设置 - GUI Agent」页面新增更多使用技巧,帮助 Tip 在操作电脑时更加得心应手。 ### Youtu Agent 我们接入了 Youtu Agent,为大模型提供更多能力。您可以在「设置 - Youtu Agent」页面,选择切换到对应的配置文件。目前我们提供了两项 demo 例子,分别是可以执行 bash 命令和文件管理的「File manager」,以及额外包含了部分格式文件解析能力的「File manager plus」配置文件。 您可以在选择文件时,使用「右键 - 打开方式 - Tip」,Tip 就可以直接获得文件的相关路径信息。然后点击「Agent执行」,让 Tip 帮您理解文件内容。 ### 接入端侧模型 我们的端侧模型服务支持两种不同的入口: #### 使用 Ollama 接入点 请按照下面的流程安装并启动 ollama 服务,拉取并且运行本地模型: 1. 下载:访问官网 ollama.com,点击 Download macOS。 2. 解压下载的 zip 文件,将 Ollama.app 拖入“应用程序”文件夹,双击运行并按照提示完成设置(Next -> Install)。 3. 打开终端(Terminal),直接复制并运行以下命令:`ollama serve` 4. 打开另一个终端(可以使用 cmd + N 执行),直接复制并运行以下命令:`ollama pull <模型名称>` 上述命令执行完毕后,就能够在 mac 运行一个 ollama 模型。然后,通过下面的方法接入 Tip: 1. 在「设置 - 模型」页面,点击新增 2. 在「通道」页面选择「ollama」,并且填写模型名字 3. 点击保存,即可在「设置 - 通用」页面点击并接入 #### 使用 OpenAI 接入点 我们也提供了标准的 OpenAI SDK 接入点,可以使用任意在线平台提供的模型服务,也可以使用本地 llama-server 等服务提供的接入点。 1. 在「设置 - 模型」页面,点击新增 2. 在「通道」页面选择「OpenAI SDK」,并且填写 base_url, api_key, model 等相关信息 3. 点击保存,即可在「设置 - 通用」页面点击并接入 我们提供的端侧模型 Youtu-LLM 已经适配 llama.cpp 并已经在 Ollama 项目提交 PR,预计将在近期开放支持,敬请期待。llama.cpp 使用说明详见:[README](youtu-llm/README.md#5-llamacpp-deployment) #### 能力说明 端侧模型受限于其参数量大小,其表现也相对受限,部分任务可能无法完成,输出文本的准确率相比大型模型也会有所相差。我们提供了一张简单的介绍表格,用于简易区分目前端侧模型的能力边界: | 任务名称 | 具体例子 | 端侧模型 | 大型模型 | | --- | --- | --- | --- | | 搜索内容 | “在该页面搜索xxx” | ✅ | ✅ | | 简单视觉定位 | “点击xxx按钮、输入xxx” | ✅ | ✅ | | 单步逻辑任务 | “填写表单” | ❌ | ✅ | | 多步推理规划 | “查询机票并对比价格” | ❌ | ✅ | | 跨应用协作 | “从xx应用复制内容到xx应用” | ❌ | ✅ | | 异常自我修正 | “遇到错误时重试” | ✅ | ✅ | 如遇到端侧模型无法解决的问题,推荐使用更大参数量的模型、可信的接入点进行部署,以提升使用体验。 ## 本地开发 我们也提供了完全开源的源代码、架构说明等相关内容,可以直接进行本地开发和打包,自定义您所需要的任何功能。具体详见:[README](youtu-tip/README_CN.md) --- ## Youtu-LLM: 小巧的强大模型 我们隆重推出 Youtu-LLM,这是一个全新、小巧但强大的LLM,仅包含1.96B参数,支持128K上下文,并具备原生智能体能力。在通用评估中,Youtu-LLM在常识、STEM、代码和长文能力上显著优于同等规模的现有LLM;在智能体相关测试中,Youtu-LLM超越了规模更大的领先者,并真正能够完成多个端到端的智能体任务。 ### 核心亮点 Youtu-LLM的主要贡献如下: - **以STEM能力为出发点的设计**:Youtu-LLM的设计以STEM能力和智能体能力为出发点,涉及词表构建、数据配比和多阶段课程学习策略。 - **原生智能体能力**:Youtu-LLM使用128K上下文进行原生训练,并辅以智能体中期训练(Agentic Mid-training),从而能够在端侧场景中实现更多轮次的交互。 - **SOTA 性能**:Youtu-LLM基于dense MLA架构,在轻量级LLM上实现了SOTA性能,超越了传统的dense GQA/MHA范式。MLA 架构也意味着Youtu-LLM可以轻松集成到现有的面向DSV3的生态系统中。 ## 性能对比 我们提供了 Base 和 Instruct 两款模型,在大部分基准测试中取得了优异的表现,此外,我们还提供了复现所有分数的评估代码。请查看 [README](youtu-llm/README_CN.md) 来了解更多内容。 ### 基础模型 #### 通用基准测试 | Type | Benchmark (Metric) | # Shots | Qwen3-1.7B-Base | SmoLM3-3B-Base | Gemma3-4B-Base | Qwen3-4B-Base | Llama3.1-8B | Youtu-LLM-2B-Base | | :--- | :--- | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | Commonsense | MMLU-Pro (EM) | 5 | 34.9% | 35.3% | 29.4% | 46.1% | 36.2% | **48.4%** | | | MLQA-Zh (EM) | 3 | 38.1% | 38.0% | 40.3% | **47.2%** | 43.0% | 43.5% | | | MMLU-ProX-Zh (EM) | 5 | 32.5% | 26.7% | 24.2% | **45.2%** | 25.4% | 40.7% | | STEM | GSM8K (EM) | 8 | 68.2% | 67.3% | 38.5% | **80.8%** | 47.8% | 77.6% | | | MGSM-Zh (EM) | 8 | 57.1% | 40.7% | 33.0% | **69.7%** | 35.9% | 68.9% | | | MATH (EM) | 4 | 28.1% | 40.8% | 24.4% | **44.8%** | 21.5% | 44.4% | | | BBH (EM) | 3 | 53.0% | 59.8% | 51.6% | **70.8%** | 62.9% | 59.8% | | | GPQA-MC (Acc. Norm) | 5 | 30.4% | 26.6% | 28.6% | **37.8%** | 30.1% | 33.3% | | | HLE-MC (Acc. Norm) | 3 | 10.7% | 3.1% | 8.0% | 15.0% | 11.5% | **17.4%** | | Coding | MBPP (Pass@1) | 3 | 55.6% | 51.0% | 45.8% | **67.5%** | 49.4% | 66.6% | | | MBPP+ (Pass@1) | 3 | 71.0% | 66.1% | 61.9% | 80.8% | 62.7% | **81.8%** | | | HumanEval (Pass@1) | 0 | 49.9% | 34.8% | 36.6% | 57.6% | 36.0% | **64.6%** | | | HumanEval+ (Pass@1) | 0 | 41.3% | 28.1% | 28.1% | 49.9% | 28.1% | **57.3%** | | | LiveCodeBench v6 (Pass@1) | 3 | 5.1% | 2.9% | 2.9% | 6.9% | 3.4% | **9.7%** | | | CRUXEval (Pass@1) | 1 | 40.6% | 42.1% | 39.7% | 54.8% | 42.3% | **55.9%** | | | RepoBench (EM) | 3 | 21.0% | 21.8% | 23.0% | **25.3%** | 25.2% | 22.7% | | Long Context | LongBench v2 (Acc.) | 3 | 28.0% | **28.8%** | 26.6% | 25.8% | 27.8% | 27.2% | | | NIAH (Acc.) | / | 79.8% | 75.0% | 99.5% | 83.0% | **99.8%** | 98.8% | #### 智能体基准测试 我们使用[APTBench](https://github.com/TencentYoutuResearch/APTBench/)来评估基础模型的智能体能力。 | Category | Qwen3-1.7B-Base | SmoLM3-3B-Base | Gemma3-4B-Base | Qwen3-4B-Base | Llama3.1-8B | Youtu-LLM-2B-Base | | :--- | :---: | :---: | :---: | :---: | :---: | :---: | | Code | 25.1% | 24.3% | 32.8% | **41.9%** | 23.6% | 37.9% | | Deep Research | 28.5% | 27.2% | 36.4% | **40.5%** | 30.0% | 38.6% | | Math | 59.9% | 60.7% | 59.8% | **70.5%** | 60.1% | 68.0% | | Tool | 56.7% | 59.1% | 61.7% | **65.8%** | 64.1% | 64.2% | ### 指令模型 #### 通用基准测试 | Benchmark | DeepSeek-R1-Distill-Qwen-1.5B | Qwen3-1.7B | SmolLM3-3B | Qwen3-4B | DeepSeek-R1-Distill-Llama-8B | Youtu-LLM-2B | | :--- | :---: | :---: | :---: | :---: | :---: | :---: | | **Commonsense Knowledge Reasoning** | | | | | | | | MMLU-Redux | 53.0% | 74.1% | 75.6% | **83.8%** | 78.1% | 75.8% | | MMLU-Pro | 36.5% | 54.9% | 53.0% | **69.1%** | 57.5% | 61.6% | | **Instruction Following & Text Reasoning** | | | | | | | | IFEval | 29.4% | 70.4% | 60.4% | **83.6%** | 34.6% | 81.2% | | DROP | 41.3% | 72.5% | 72.0% | 82.9% | 73.1% | **86.7%** | | MUSR | 43.8% | 56.6% | 54.1% | **60.5%** | 59.7% | 57.4% | | **STEM** | | | | | | | | MATH-500 | 84.8% | 89.8% | 91.8% | **95.0%** | 90.8% | 93.7% | | AIME 24 | 30.2% | 44.2% | 46.7% | **73.3%** | 52.5% | 65.4% | | AIME 25 | 23.1% | 37.1% | 34.2% | **64.2%** | 34.4% | 49.8% | | GPQA-Diamond | 33.6% | 36.9% | 43.8% | **55.2%** | 45.5% | 48.0% | | BBH | 31.0% | 69.1% | 76.3% | **87.8%** | 77.8% | 77.5% | | **Coding** | | | | | | | | HumanEval | 64.0% | 84.8% | 79.9% | 95.4% | 88.1% | **95.9%** | | HumanEval+ | 59.5% | 76.2% | 74.7% | 87.8% | 82.5% | **89.0%** | | MBPP | 51.5% | 80.5% | 66.7% | **92.3%** | 73.9% | 85.0% | | MBPP+ | 44.2% | 67.7% | 56.7% | **77.6%** | 61.0% | 71.7% | | LiveCodeBench v6 | 19.8% | 30.7% | 30.8% | **48.5%** | 36.8% | 43.7% | #### 智能体基准测试 | Benchmark | Qwen3-1.7B | SmolLM3-3B | Qwen3-4B | Youtu-LLM-2B | | :--- | :---: | :---: | :---: | :---: | | **Deep Research** | | | | | | GAIA | 11.4% | 11.7% | 25.5% | **33.9%** | | xbench | 11.7% | 13.9% | 18.4% | **19.5%** | | **Code** | | | | | | SWE-Bench-Verified | 0.6% | 7.2% | 5.7% | **17.7%** | | EnConda-Bench | 10.8% | 3.5% | 16.1% | **21.5%** | | **Tool** | | | | | | BFCL V3 | 55.5% | 31.5% | **61.7%** | 58.0% | | τ²-Bench | 2.6% | 9.7% | 10.9% | **15.0%** | ## 使用 Youtu-LLM 快速使用: ```python from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("tencent/Youtu-LLM-2B", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( "tencent/Youtu-LLM-2B", device_map="auto", trust_remote_code=True ) ``` 更详细的使用内容,包括「基于 transformers 进行推理」、「配置思考模式开关」、「配置解码参数」、「使用 vLLM 部署与工具调用」等具体功能。 详情请参阅: [README](youtu-llm/README_CN.md) 。此外,Youtu-llm 也将在近期提供 Ollama 接入点服务,届时欢迎使用。 --- ## Youtu-VL:通过统一的视觉–语言监督释放视觉潜能 Youtu-VL 是一个轻量的视觉–语言模型(Vision-Language Model, VLM),基于 Youtu-LLM(4B 参数规模) 构建。该模型提出了 视觉–语言统一自回归监督(Vision-Language Unified Autoregressive Supervision, VLUAS),显著增强了模型的视觉感知能力与多模态理解能力。这一范式使得标准 VLM 无需引入任何任务特定模块,即可胜任多种以视觉为中心的任务。在多个基准评测中,Youtu-VL 展现出良好的通用性,在视觉中心任务与通用多模态任务上均取得了具有竞争力的性能。 ### 亮点 Youtu-VL 的主要贡献包括: - 视觉–语言统一自回归监督(VLUAS):Youtu-VL 基于 VLUAS 范式构建,旨在缓解传统 VLM 中普遍存在的“文本主导”优化偏置问题。在该问题中,视觉信号往往仅被作为被动条件输入,细粒度视觉信息容易在训练过程中丢失。不同于仅将视觉特征作为输入,Youtu-VL 通过一个学习得到的视觉码本,将文本词表扩展为统一的多模态词表,使视觉信号本身成为自回归预测的监督目标。通过对视觉 token 与文本的联合重建,模型能够显式保留高密度的视觉信息,同时增强多模态语义理解能力。 - 基于标准架构的视觉中心预测(无需任务特定模块):Youtu-VL 将图像 token 与文本 token 置于同等的自回归地位,使模型能够在标准 VLM 架构下同时完成视觉中心任务与文本预测任务,包括密集视觉预测(如语义分割、深度估计)以及基于文本的预测任务(如目标定位、目标检测)。该设计避免了对任务特定模块的依赖,构建了一个通用且灵活的 VLM,使单一模型即可适配多种视觉中心及视觉–语言任务需求。 ## 性能对比 ### 视觉中心任务 | Benchmarks | Youtu-VL 4B (instruct) | Qwen3-VL 4B (instruct) | InternVL-3.5 4B | UFO 8B | GiT 756M | VisionLLM v2 7B | *VLM | *Non-VLM | |------------|:-------------:|:-------------:|:------------------:|:--------:|:----------:|:------------------:|:------:|:----------:| | **Visual Grounding** | | | | | | | | | | RefCOCO val | 93.6 | 90.7 | 92.5 | 91.8 | - | 90.0 | 92.6 | 90.5 | | RefCOCO testA | 95.2 | 92.2 | 94.3 | 94.3 | - | 93.1 | 94.3 | 93.1 | | RefCOCO testB | 90.8 | 86.7 | 88.2 | 87.5 | - | 87.1 | 91.4 | 88.2 | | RefCOCO+ val | 90.1 | 82.9 | 87.6 | 86.9 | - | 81.1 | 88.7 | 82.7 | | RefCOCO+ testA | 93.9 | 89.4 | 92.3 | 91.3 | - | 87.3 | 92.2 | 88.9 | | RefCOCO+ testB | 85.4 | 75.6 | 81.6 | 80.6 | - | 74.5 | 83.2 | 75.9 | | RefCOCOg val | 92.2 | 87.3 | 89.6 | 87.9 | - | 85.0 | 89.2 | 86.1 | | RefCOCOg test | 92.9 | 87.7 | 89.3 | 88.6 | - | 86.4 | 89.3 | 87.0 | | **Object Detection** | | | | | | | | | | COCO val | 47.1 | - | - | 48.9 | 46.7 | 56.7 | 63.7 | 63.1 | | **Semantic Segmentation** | | | | | | | | | | ADE20k | 54.2 | × | × | 54.5 | 47.8 | 52.3 | 38.4 | 56.4 | | Cityscapes | 70.4 | × | × | - | 61.8 | - | 42.0 | 83.3 | | Context59 | 60.4 | × | × | - | 63.3 | - | 63.6 | 60.8 | | VOC20 | 92.5 | × | × | - | - | - | 97.1 | - | | COCOStuff | 52.5 | × | × | 30.2 | 49.1 | - | 39.6 | 45.7 | | **Referring Segmentation** | | | | | | | | | | RefCOCO val | 80.7 | × | × | 80.0 | × | 76.6 | 80.5 | 79.3 | | RefCOCO testA | 82.0 | × | × | 81.6 | × | 79.3 | 82.6 | 81.2 | | RefCOCO testB | 78.4 | × | × | 78.1 | × | 74.3 | 76.9 | 77.8 | | RefCOCO+ val | 76.2 | × | × | 76.7 | × | 64.5 | 74.3 | 69.5 | | RefCOCO+ testA | 79.6 | × | × | 79.9 | × | 69.8 | 78.9 | 75.6 | | RefCOCO+ testB | 71.4 | × | × | 72.3 | × | 61.5 | 68.4 | 63.0 | | RefCOCOg val | 76.5 | × | × | 75.5 | × | 70.7 | 76.3 | 71.3 | | RefCOCOg test | 76.6 | × | × | 76.3 | × | 71.2 | 77.0 | 72.0 | | **Depth Estimation** | | | | | | | | | | NYUv2 | 90.4 | × | × | 93.6 | × | × | 86.8 | 98.8 | | Cityscapes | 92.7 | × | × | - | × | × | - | 92.1 | | DDAD | 87.6 | × | × | - | × | × | 74.7 | 88.2 | | **Human Pose** | | | | | | | | | | MPII | 89.1 | × | × | × | × | - | 89.3 | 93.3 | | **Image Classification** | | | | | | | | | | ImageNet-ReaL | 89.3 | - | - | × | × | × | 91.1 | 91.2 | | **Object Counting** | | | | | | | | | | TallyQA-Simple | 85.1 | 79.0 | 77.6 | × | × | × | 84.9 | 86.3 | | TallyQA-Complex | 74.4 | 64.0 | 66.4 | × | × | × | 72.3 | 77.1 | | CountBench | 88.6 | 78.4 | 79.4 | × | × | × | 83.1 | 93.8 | ### 通用多模态任务 | Benchmarks | Qwen3-VL 8B (instruct) | InternVL-3.5 4B | Qwen3-VL 4B (instruct) | Youtu-VL 4B (instruct) | |------------|:--------------------:|:------------------:|:---------------------:|:---------------------:| | **General VQA** | | | | | | MMBench_CN | 84.7 | - | 83.5 | 83.6 | | MMBench_EN | 84.5 | 80.3 | 83.9 | 83.9 | | MMStar | 70.9 | 65.0 | 69.8 | 71.1 | | MME (/2800) | - | 2272 | 2309* | 2384 | | CVBench_2d | - | - | 79.1* | 80.4 | | CVBench_3d | - | - | 92.4* | 93.0 | | ScienceQA_val | - | - | 94.7* | 97.0 | | SEEDBench_IMG | - | - | 77.0* | 76.9 | | SEEDBench2 | - | - | 75.9* | 74.5 | | MMVet | - | - | 68.3* | 64.6 | | **Multimodal Reasoning & Math** | | | | | | VisuLogic | 22.5 | - | 19.0 | 25.7 | | MMMU_val | 69.6 | 66.6 | 67.4 | 61.1 | | MMMU-Pro | 55.9 | - | 53.2 | 43.0 | | CMMMU_val | - | - | 54.6* | 52.6 | | MathVista_mini | 77.2 | 77.1 | 73.7 | 76.5 | | MathVerse_mini | 62.1 | 45.8 | 46.8 | 56.5 | | LogicVista | 55.3 | 41.8 | 53.2 | 52.4 | | VLMsAreBlind | 74.0 | - | 71.9 | 88.9 | | **Hallucination** | | | | | | HallusionBench | 61.1 | 44.8 | 57.6 | 59.1 | | CRPE_exist | - | - | 95.6* | 96.9 | | CRPE_relation | - | 75.0 | 71.0* | 72.2 | | POPE | - | 88.9 | 89.3* | 86.4 | | **OCR-related Understanding** | | | | | | AI2D_test | 85.7 | 82.6 | 84.1 | 85.6 | | InfoVQA_val | 83.1 | 78.0 | 80.3 | 79.1 | | TextVQA_val | - | 77.9 | 80.8* | 79.6 | | DocVQA_val | 96.1 | 92.4 | 95.3 | 94.4 | | ChartQA_test | 89.6 | 86.0 | 84.6 | 85.3 | | OCRBench | 896 | 822 | 881 | 813 | | SEEDBench2Plus | - | 69.4 | 71.5* | 71.3 | | CharXivDQ | 83.0 | 71.1 | 76.2 | 79.4 | | CharXivRQ | 46.4 | 39.6 | 39.7 | 43.8 | | **Multi-image & Real-world** | | | | | | BLINK | 69.1 | 58.1 | 65.8 | 64.3 | | RealWorldQA | 71.5 | 66.3 | 70.9 | 74.6 | | MMERealWorld_EN | - | - | 63.0* | 61.5 | | MMERealWorld_CN | - | 59.8 | 61.3* | 63.5 | | **GUI Agent** | | | | | | ScreenSpot Pro | 54.6 | - | 59.5 | 59.6 | | OSWorld | 33.9 | - | 26.2 | 38.8 | | **Text-Centric** | | | | | | MMLU-Pro | 71.6 | - | 67.1 | 56.5 | | MMLU-Redux | 84.9 | - | 81.5 | 76.8 | | C-Eval | - | 71.9 | 76.5 | 69.1 | | MuSR | - | - | 46.6 | 58.3 | | IFEval | 83.7 | - | 82.3 | 76.9 | | DROP (F1) | - | - | 85.0 | 79.3 | | BBH | - | - | 84.8 | 71.9 | | GPQA-Diamond | - | - | 42.9 | 39.8 | ## 使用 Youtu-VL 快速使用: ```python from transformers import AutoProcessor, AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained( "tencent/Youtu-VL-4B-Instruct", attn_implementation="flash_attention_2", torch_dtype="auto", device_map="cuda", trust_remote_code=True ).eval() ``` 更详细的使用内容,请参阅: [README](https://github.com/TencentCloudADP/youtu-vl/blob/main/README.md) 。 ## 许可证 Youtu-Tip 项目以及 Youtu-LLM 模型基于 [LICENSE](./LICENSE) 进行开源许可。 Youtu-VL 模型基于 [LICENSE](https://github.com/TencentCloudADP/youtu-vl/blob/main/LICENSE)进行开源许可。 ## 引用 如果我们的工作有幸为您带来帮助,还希望您考虑引用这两篇文章: ```bibtex @article{youtu-agent, title={Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization}, author={Tencent Youtu Lab}, year={2025}, eprint={2512.24615}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2512.24615}, } @article{youtu-llm, title={Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models}, author={Tencent Youtu Lab}, year={2025}, eprint={2512.24618}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.24618}, } @article{youtu-vl, title={Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision}, author={Tencent Youtu Lab}, year={2026}, eprint={2601.19798}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2601.19798}, } ```