
Defesa de Tese de Doutorado de Alex Vanderlei Salgado, 11/03/26, 13h, por videoconferência
Link para defesa: https://meet.google.com/hyh-pkwz-diz
Cognitive Maritime Navigation for Unmanned Surface Vehicles Using Vision-Language Models, Human-in-the-Loop Learning, and Spatio-Temporal Memory
Resumo:
Os sistemas atuais de Veículos de Superfície Não Tripulados (USVs) seguem o paradigma USV-1.0 (pilhas modulares tradicionais de percepção–planejamento–controle) ou, mais recentemente, a abordagem USV-2.0 (políticas neurais ponta-a-ponta que requerem grandes conjuntos de dados de treinamento). Embora sejam eficazes em cenários restritos, ambos os paradigmas falham em alavancar o conhecimento náutico humano acumulado e enfrentam limitações de eficiência de dados e interpretabilidade. Nesta tese propomos um framework de navegação cognitiva para USVs, voltado a águas costeiras e abrigadas (e.g., baías, aproximação a portos e canais balizados), que integra Modelos Visão-Linguagem (VLMs), aprendizado Humano-no-Ciclo (HITL) e Memória de Navegação Espaço-Temporal (STNM) para permitir que embarcações autônomas aprendam e reutilizem comportamento visuomotor a partir de demonstrações humanas, o que denominamos USV-3.0. A arquitetura é estruturada como um grafo dirigido de seis nós orquestrado por um Captain Agent (Supervisor Pattern), composto por cinco agentes especializados cujos papéis cognitivos—percepção, memória, raciocínio, planejamento e controle—são coordenados por orquestração de grafo agêntico. A abordagem integra quatro componentes-chave em um framework cognitivo unificado: (1) modelos visão–linguagem marítimos condicionados por linguagem, que interpretam cenas visuais 360° e ancoram a percepção na intenção expressa por comandos de missão em linguagem natural; (2) um mecanismo HITL baseado em confiança que aciona a intervenção do operador quando a confiança do sistema cai abaixo de 90%, armazenando decisões humanas validadas juntamente com seu contexto linguístico e visual; (3) um sistema STNM que registra trajetórias, embeddings visuais e raciocínio textual, permitindo recuperação híbrida baseada em GPS e CLIP de comportamentos passados condicionados pela semântica da missão; e (4) uma Regra de Sobreposição de Emergência (EOR) que permite que detecções de alto risco pela percepção disparem ações evasivas mesmo na ausência de contexto de memória ou waypoints. Validamos o USV-3.0 no simulador de alta fidelidade VisualSimBoat usando quatro cenários de navegação costeira realistas. Em configurações treinadas (visibilidade normal), o sistema alcança 100% de sucesso de missão, 98,2% de funcionamento autônomo e recuperação de memória com raio espacial de 8 m e precisão observada de 3–5 m, aprendendo novas rotas a partir de 23–61 episódios HITL—ordens de grandeza a menos do que o tipicamente exigido por abordagens USV-2.0. Experimentos de transferência zero-shot sob condições adversas de visibilidade (névoa) revelaram inicialmente uma desconexão percepção–execução, onde detecções corretas de obstáculos não resultavam em ações evasivas. A integração do mecanismo EOR mitigou essa limitação, aumentando a Taxa de Resposta a Perigos de 0% para 85,7% nos cenários de névoa. Esses resultados posicionam o framework USV-3.0 como uma alternativa eficiente em dados aos paradigmas existentes de USVs em ambientes simulados, ao mesmo tempo em que delineiam claramente seus limites atuais, gaps de simulação-para-realidade e direções futuras de pesquisa.
Abstract:
Current Unmanned Surface Vessel (USV) systems follow the USV-1.0 paradigm (traditional modular perception–planning–control stacks) or more recently the USV-2.0 approach (end-to-end neural policies requiring large training datasets). While effective in constrained settings, both paradigms fail to leverage accumulated human nautical expertise and struggle with data efficiency and interpretability. In this thesis we propose a cognitive navigation framework for USVs, targeted at coastal and sheltered waters (e.g., bays, port approaches, and buoyed channels), that integrates Vision-Language Models (VLMs), Human-in-the-Loop (HITL) learning, and Spatio-Temporal Navigation Memory (STNM) to enable autonomous surface vessels to learn and reuse visuomotor behavior from human demonstrations, which we nominate as USV-3.0. The architecture is structured as a six-node directed graph orchestrated by a Captain Agent (Supervisor Pattern), comprising five specialized agents whose cognitive roles—perception, memory, reasoning, planning, and control—are coordinated through agentic graph orchestration. This novel approach integrates four key components into a unified cognitive framework: (1) language-conditioned maritime vision–language models (VLMs) that interpret 360° visual scenes and ground perception in the intent conveyed by natural-language mission commands; (2) a confidence-based HITL mechanism that triggers operator intervention when system confidence drops below 90%, storing validated human decisions together with their linguistic and visual context; (3) an STNM system that records trajectories, visual embeddings, and textual reasoning, enabling hybrid GPS- and CLIP-based retrieval of past behaviors conditioned on mission semantics; and (4) an Emergency Override Rule (EOR) that enables high-confidence hazard detections from perception to trigger evasive actions even in the absence of memory or waypoint context. We validate USV-3.0 in the high-fidelity VisualSimBoat simulator using four coastal navigation scenarios representing realistic conditions. Under trained configurations (normal visibility), the system achieves 100% mission success, 98.2% autonomous functioning, and memory retrieval within an 8 m spatial radius (observed episode-matching precision of 3–5 m), learning new routes from 23–61 HITL episodes—orders of magnitude fewer than typically required by USV-2.0 approaches. Zero-shot transfer experiments under adverse visibility conditions (fog) initially revealed a perception–execution disconnect, where correct obstacle detections failed to trigger evasive actions. Integration of the EOR mechanism mitigated this limitation, increasing the Hazard Response Rate from 0% to 85.7% in fog scenarios. These results position the USV-3.0 framework as a data-efficient alternative to existing USV paradigms in simulated environments, while clearly delineating its current boundaries, sim-to-real gaps, and future research directions.
Banca examinadora:
Prof. Esteban Walter Gonzalez Clua, UFF – Presidente
Profa. Flavia Cristina Bernardini, UFF
Prof. Raphael Pereira de Oliveira Guerra, UFF
Dr. Eduardo Charles Vasconcellos, FEC
Prof. Luiz Marcos Garcia Gonçalves, UFRN
Prof. Joris Michel Gérard Daniel Guérin, IRD
Prof. Bruno Marques Ferreira da Silva, UFRN
Prof. Bruno Motta de Carvalho, UFRN