Defesa de Tese de Doutorado de Alex Vanderlei Salgado, 11/03/26, 13h, por videoconferência

Link para defesa: https://meet.google.com/hyh-pkwz-diz

Cognitive Maritime Navigation for Unmanned Surface Vehicles Using Vision-Language Models, Human-in-the-Loop Learning, and Spatio-Temporal Memory

Resumo:

Os sistemas atuais de Veículos de Superfície Não Tripulados (USVs) seguem o paradigma USV-1.0 (pilhas modulares tradicionais de percepção–planejamento–controle) ou, mais recentemente, a abordagem USV-2.0 (políticas neurais ponta-a-ponta que requerem grandes conjuntos de dados de treinamento). Embora sejam eficazes em cenários restritos, ambos os paradigmas falham em alavancar o conhecimento náutico humano acumulado e enfrentam limitações de eficiência de dados e interpretabilidade. Nesta tese propomos um framework de navegação cognitiva para USVs, voltado a águas costeiras e abrigadas (e.g., baías, aproximação a portos e canais balizados), que integra Modelos Visão-Linguagem (VLMs), aprendizado Humano-no-Ciclo (HITL) e Memória de Navegação Espaço-Temporal (STNM) para permitir que embarcações autônomas aprendam e reutilizem comportamento visuomotor a partir de demonstrações humanas, o que denominamos USV-3.0. A arquitetura é estruturada como um grafo dirigido de seis nós orquestrado por um Captain Agent (Supervisor Pattern), composto por cinco agentes especializados cujos papéis cognitivos—percepção, memória, raciocínio, planejamento e controle—são coordenados por orquestração de grafo agêntico. A abordagem integra quatro componentes-chave em um framework cognitivo unificado: (1) modelos visão–linguagem marítimos condicionados por linguagem, que interpretam cenas visuais 360° e ancoram a percepção na intenção expressa por comandos de missão em linguagem natural; (2) um mecanismo HITL baseado em confiança que aciona a intervenção do operador quando a confiança do sistema cai abaixo de 90%, armazenando decisões humanas validadas juntamente com seu contexto linguístico e visual; (3) um sistema STNM que registra trajetórias, embeddings visuais e raciocínio textual, permitindo recuperação híbrida baseada em GPS e CLIP de comportamentos passados condicionados pela semântica da missão; e (4) uma Regra de Sobreposição de Emergência (EOR) que permite que detecções de alto risco pela percepção disparem ações evasivas mesmo na ausência de contexto de memória ou waypoints. Validamos o USV-3.0 no simulador de alta fidelidade VisualSimBoat usando quatro cenários de navegação costeira realistas. Em configurações treinadas (visibilidade normal), o sistema alcança 100% de sucesso de missão, 98,2% de funcionamento autônomo e recuperação de memória com raio espacial de 8 m e precisão observada de 3–5 m, aprendendo novas rotas a partir de 23–61 episódios HITL—ordens de grandeza a menos do que o tipicamente exigido por abordagens USV-2.0. Experimentos de transferência zero-shot sob condições adversas de visibilidade (névoa) revelaram inicialmente uma desconexão percepção–execução, onde detecções corretas de obstáculos não resultavam em ações evasivas. A integração do mecanismo EOR mitigou essa limitação, aumentando a Taxa de Resposta a Perigos de 0% para 85,7% nos cenários de névoa. Esses resultados posicionam o framework USV-3.0 como uma alternativa eficiente em dados aos paradigmas existentes de USVs em ambientes simulados, ao mesmo tempo em que delineiam claramente seus limites atuais, gaps de simulação-para-realidade e direções futuras de pesquisa.

Abstract:

Current Unmanned Surface Vessel (USV) systems follow the USV-1.0 paradigm (traditional modular perception–planning–control stacks) or more recently the USV-2.0 approach (end-to-end neural policies requiring large training datasets). While effective in constrained settings, both paradigms fail to leverage accumulated human nautical expertise and struggle with data efficiency and interpretability. In this thesis we propose a cognitive navigation framework for USVs, targeted at coastal and sheltered waters (e.g., bays, port approaches, and buoyed channels), that integrates Vision-Language Models (VLMs), Human-in-the-Loop (HITL) learning, and Spatio-Temporal Navigation Memory (STNM) to enable autonomous surface vessels to learn and reuse visuomotor behavior from human demonstrations, which we nominate as USV-3.0. The architecture is structured as a six-node directed graph orchestrated by a Captain Agent (Supervisor Pattern), comprising five specialized agents whose cognitive roles—perception, memory, reasoning, planning, and control—are coordinated through agentic graph orchestration. This novel approach integrates four key components into a unified cognitive framework: (1) language-conditioned maritime vision–language models (VLMs) that interpret 360° visual scenes and ground perception in the intent conveyed by natural-language mission commands; (2) a confidence-based HITL mechanism that triggers operator intervention when system confidence drops below 90%, storing validated human decisions together with their linguistic and visual context; (3) an STNM system that records trajectories, visual embeddings, and textual reasoning, enabling hybrid GPS- and CLIP-based retrieval of past behaviors conditioned on mission semantics; and (4) an Emergency Override Rule (EOR) that enables high-confidence hazard detections from perception to trigger evasive actions even in the absence of memory or waypoint context. We validate USV-3.0 in the high-fidelity VisualSimBoat simulator using four coastal navigation scenarios representing realistic conditions. Under trained configurations (normal visibility), the system achieves 100% mission success, 98.2% autonomous functioning, and memory retrieval within an 8 m spatial radius (observed episode-matching precision of 3–5 m), learning new routes from 23–61 HITL episodes—orders of magnitude fewer than typically required by USV-2.0 approaches. Zero-shot transfer experiments under adverse visibility conditions (fog) initially revealed a perception–execution disconnect, where correct obstacle detections failed to trigger evasive actions. Integration of the EOR mechanism mitigated this limitation, increasing the Hazard Response Rate from 0% to 85.7% in fog scenarios. These results position the USV-3.0 framework as a data-efficient alternative to existing USV paradigms in simulated environments, while clearly delineating its current boundaries, sim-to-real gaps, and future research directions.

Banca examinadora:

Prof. Esteban Walter Gonzalez Clua, UFF – Presidente

Profa. Flavia Cristina Bernardini, UFF

Prof. Raphael Pereira de Oliveira Guerra, UFF

Dr. Eduardo Charles Vasconcellos, FEC

Prof. Luiz Marcos Garcia Gonçalves, UFRN

Prof. Joris Michel Gérard Daniel Guérin, IRD

Prof. Bruno Marques Ferreira da Silva, UFRN

Prof. Bruno Motta de Carvalho, UFRN

28 de abril de 2026

Defesa de Tese de Doutorado de Alex Vanderlei Salgado, 11/03/26, 13h, por videoconferência

Leave a Reply Cancel Reply

Conecte-se:

Desenvolvido por:

Related Posts

Defesa de Dissertação de Mestrado de Diogo Ledermann Firmino Pinto, 08/05/26, 9h, por videoconferência

Defesa de Tese de Doutorado de Adolpho Olimpio dos Santos Filho, 06/05/26, 9h, por videoconferência

ACM MM 2026 – 34th ACM International Conference on Multimedia

Leave a Reply Cancel Reply