Towards autonomous vertiport operations: a deep reinforcement learning perspective
Tutor / Supervisor
García Lasheras, Raquel
Student
Martín Goushesh, Nayib
Document type
Bachelor thesis
Date
2024
rights
Open Access
Publisher
Universitat Politècnica de Catalunya
UPCommons
Abstract
This project explored the feasibility of using Deep Reinforcement Learning (DRL) to manage drone traffic at a Vertiport dedicated to automated package delivery. A DRL agent, utilizing the Proximal Policy Optimization (PPO) algorithm, was trained to coordinate multiple drones concurrently, aiming to achieve safe and efficient operations within a simulated urban environment. A realistic simulation environment was developed by integrating the AirSim simulator with a custom server, 'DroneManagerServer', built using the FastAPI framework. This environment enabled the creation of complex scenarios and provided a platform for training and evaluating the DRL agent's performance. The agent's learning process was guided by a meticulously designed reward function that penalized collisions and inefficient actions while incentivizing safe inter-drone separation and efficient completion of delivery missions. While demonstrating the potential of DRL for Vertiport management, the project also revealed challenges associated with applying DRL to real-world control problems. Limitations in simulator performance, the complexity of hyperparameter tuning, and the intricacies of reward function design influenced the agent's overall performance and limited the scope of evaluation to a single challenging scenario. The project's key contributions include: successfully demonstrating DRL's capability to learn complex drone coordination strategies; identifying specific challenges in applying DRL to drone traffic management (UTM); and developing a flexible DRL framework that can serve as a foundation for future research. Future research directions include: enhancing the simulation environment to accommodate higher drone densities and more realistic scenarios; exploring advanced DRL techniques to improve performance and scalability; and investigating methods to enhance the agent's robustness and generalization capabilities. Furthermore, integrating U-space regulations and exploring hybrid approaches that combine DRL with other AI techniques are identified as promising avenues for advancing DRL-based UTM. By addressing these future research directions, this project aims to contribute to the development of robust and reliable autonomous systems for managing drone traffic, ultimately facilitating the safe and efficient integration of drones into urban airspace and unlocking the full potential of Urban Air Mobility.
Este proyecto exploró la viabilidad de utilizar el Aprendizaje por Refuerzo Profundo (DRL, por sus siglas en inglés) para gestionar el tráfico de drones en un Vertipuerto dedicado a la entrega automatizada de paquetes. Un agente DRL, utilizando el algoritmo Proximal Policy Optimization (PPO), fue entrenado para coordinar múltiples drones simultáneamente, con el objetivo de lograr operaciones seguras y eficientes dentro de un entorno urbano simulado. Se desarrolló un entorno de simulación realista mediante la integración del simulador AirSim con un servidor personalizado, 'DroneManagerServer', construido utilizando el framework FastAPI. Este entorno permitió la creación de escenarios complejos y proporcionó una plataforma para entrenar y evaluar el rendimiento del agente DRL. El proceso de aprendizaje del agente fue guiado por una función de recompensa meticulosamente diseñada que penalizaba las colisiones y las acciones ineficientes, al tiempo que incentivaba la separación segura entre drones y la finalización eficiente de las misiones de entrega. Si bien se demostró el potencial del DRL para la gestión de Vertiports, el proyecto también reveló desafíos asociados con la aplicación del DRL a problemas de control del mundo real. Las limitaciones en el rendimiento del simulador, la complejidad del ajuste de hiperparámetros y las complejidades del diseño de la función de recompensa influyeron en el rendimiento general del agente y limitaron el alcance de la evaluación a un único escenario desafiante. Las principales contribuciones del proyecto incluyen: demostrar con éxito la capacidad del DRL para aprender estrategias complejas de coordinación de drones; identificar desafíos específicos en la aplicación del DRL a la gestión del tráfico de drones (UTM); y desarrollar un framework DRL flexible que puede servir como base para futuras investigaciones. Las futuras direcciones de investigación incluyen: mejorar el entorno de simulación para acomodar mayores densidades de drones y escenarios más realistas; explorar técnicas avanzadas de DRL para mejorar el rendimiento y la escalabilidad; e investigar métodos para mejorar la robustez y las capacidades de generalización del agente. Además, la integración de las regulaciones del U-space y la exploración de enfoques híbridos que combinan DRL con otras técnicas de IA se identifican como vías prometedoras para avanzar en la UTM basada en DRL. Al abordar estas futuras direcciones de investigación, este proyecto tiene como objetivo contribuir al desarrollo de sistemas autónomos robustos y confiables para la gestión del tráfico de drones, facilitando en última instancia la integración segura y eficiente de los drones en el espacio aéreo urbano y desbloqueando todo el potencial de la Movilidad Aérea Urbana.
Entitat col·laboradora
Centro de Referencia de Investigación, Desarrollo e Innovación ATM
Location

Participating teacher
- García Lasheras, Raquel