选择你喜欢的标签
我们会为你匹配适合你的网址导航

    确认 跳过

    跳过将删除所有初始化信息

    您的位置:0XUCN > 资讯 > 智能
    新闻分类

    LocateAnything – 英伟达推出的视觉语言定位模型

    智能 PRO 稿源:AI工具集 2026-07-01 14:37

    LocateAnything是什么

    LocateAnything是英伟达推出的视觉语言定位模型,基于并行框解码技术,用户输入自然语言即可在图像中精准框选目标。模型支持多目标检测、GUI定位、OCR文本检测和点级指向等任务,推理速度达12.7 BPS(H100),较Qwen3-VL快10倍,在LVIS等基准达SOTA,适用机器人、文档智能与自动驾驶场景。

    LocateAnything的主要功能

    • 指代表达定位:根据自然语言描述在图像中定位并框选特定目标。
    • 多目标密集检测:支持同时检测图像中的多个物体类别,输出密集的边界框集合。
    • GUI 元素定位:可识别并定位界面中的按钮、输入框等交互元素,支持点级输出。
    • 文本检测与 OCR:定位图像中的文字区域,支持文档、场景文字和表格结构识别。
    • 点级定位:支持输出精确的点坐标用于细粒度指向任务。
    • 混合推理模式:默认使用快速并行模式,遇到复杂场景自动回退到稳定串行模式。

    LocateAnything的技术原理

    • 并行框解码(PBD):模型将每个边界框或点视为原子单元,在单次前向传播中并行预测完整坐标集 (x1,y1,x2,y2),非传统逐 token 串行生成。
    • 模型架构:模型采用 Moon-ViT 视觉编码器提取原生分辨率视觉特征,经双层 MLP 投影器映射后输入 Qwen2.5 语言解码器进行定位推理。
    • 结构化输出:模型生成语义块、框块、负样本块和结束块,通过 <box>、<ref> 等特殊 token 组织结构化定位结果。
    • 混合推理模式:默认使用快速并行模式(MTP)最大化吞吐量,遇到格式异常或空间歧义时自动无缝回退到稳定串行模式(NTP)。
    • 纠正性重解码:当并行解码检测到框结构畸形或坐标冲突时,自动丢弃问题块并回退到已验证前缀,通过 NTP 重新生成修正。

    微信关注回复“开源”,加入AI开源项目交流群

    如何使用LocateAnything

    • 环境准备:从 GitHub 克隆 Eagle 仓库,进入 Embodied 目录执行 pip install -e . 完成依赖安装。
    • 模型加载:导入 LocateAnythingWorker 类并实例化,加载 Hugging Face 上的 nvidia/LocateAnything-3B 预训练权重。
    • 目标检测:调用 detect() 方法,传入图像和类别名称列表(如 ["person", "car"]),模型返回所有匹配目标的边界框坐标。
    • 短语定位:使用 ground_multi() 方法输入图像和描述文本(如 "people wearing red shirts"),定位符合语义描述的特定目标。
    • 文本检测:调用 detect_text() 方法,模型自动识别图像中的文字区域并输出对应的边界框集合。
    • GUI 定位:通过 ground_gui() 方法定位界面元素,设置 output_type="point" 可输出点坐标而非边界框。
    • 点级指向:使用 point() 方法输入图像和描述,获取指定目标的精确单点坐标用于细粒度指向。
    • 批量推理:配置 la_flash 运行时并将 batch_utils/ 加入 PYTHONPATH,调用 detect_batch() 同时处理多组图像-查询对。
    • 结果解析:提取输出中 <box> 标签内的整数坐标(范围 0-1000),除以 1000 后映射到原始图像的宽高像素值。
    • 微调适配:准备 JSONL 数据配方,使用 torchrun 启动全量微调脚本,或运行 LoRA 脚本冻结主干仅训练投影器与低秩适配层。

    LocateAnything的核心优势

    • 速度领先:单张 H100 上达到 12.7 BPS,比 Qwen3-VL 快约 10 倍,比 Rex-Omni 快约 2.5 倍。
    • 精度 SOTA:在 LVIS、M6Doc、ScreenSpot-Pro、DocLayNet 等多个基准上达到最佳性能。
    • 通用统一:单一模型覆盖检测、定位、GUI、OCR、布局等多样任务,无需为不同场景切换专用模型。
    • 几何一致性:并行解码保留了框内坐标的几何耦合关系,避免串行生成导致的结构畸形。
    • 显存优化:通过 la_flash 运行时,在 A100 等消费级/数据中心 GPU 上可将峰值显存从 35GB 降至 11GB。

    LocateAnything的项目地址

    • 项目官网:https://research.nvidia.com/labs/lpr/locate-anything/

    • GitHub仓库:https://github.com/NVlabs/Eagle/tree/main/Embodied

    • HuggingFace模型库:https://huggingface.co/nvidia/LocateAnything-3B

    • 技术论文:https://research.nvidia.com/labs/lpr/locate-anything/LocateAnything.pdf

    LocateAnything的同类竞品对比

    对比维度LocateAnything-3BRex-Omni
    所属机构NVIDIA 英伟达开源社区
    产品定位通用视觉语言定位与检测模型通用视觉定位与理解模型
    核心解码技术并行框解码(PBD),原子化单次预测完整边界框串行/混合坐标 token 生成
    推理速度(H100)12.7 BPS~5.0 BPS
    速度倍数基准慢约 2.5 倍
    LVIS 精度(F1@Mean)50.746.9
    COCO 精度(F1@Mean)54.752.9
    Dense200 精度58.758.3
    DocLayNet 文档精度76.870.7
    M6Doc 文档精度70.155.6
    TotalText(OCR)43.340.6
    HumanRef 指代定位68.865.4

    LocateAnything的应用场景

    • 具身智能与机器人:为机器人提供视觉感知能力,通过语言指令定位操作目标。
    • 文档智能处理:自动识别并框选文档中的标题、表格、段落、印章等结构化元素。
    • GUI 自动化测试:定位界面中的按钮、输入框、图标,支持自动化测试和 RPA 流程。
    • 自动驾驶感知:在街景图像中密集检测车辆、行人、交通标志,输出精准边界框。
    • 零售与仓储:通过描述快速定位货架上的特定商品或仓库中的目标包裹。

    超好看的资讯你懂得 >>> 点击进入

    0XU.CN

    [超站]友情链接:

    四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
    关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

    图库
    公众号 关注网络尖刀微信公众号
    随时掌握互联网精彩
    赞助链接
    热门AI排行
    排名 热点 热门指数