Computer vision techniques for autonomous vehicles applied to urban underground railway

Etxeberria Garcia, Mikel

Ikusi/Ireki

EtxeberriaMikel_tesis.pdf (10.58Mb)

Erregistro osoa

Eragina

Partekatu

Gorde erreferentzia

Izenburua

Computer vision techniques for autonomous vehicles applied to urban underground railway

Egilea

Etxeberria Garcia, Mikel

Zuzendaria(k)

Arana-Arexolaleiba, Nestor

Zamalloa Aquizu, Maider

Irakurtze Data

2022-07-06

Ikerketa taldea

Robótica y automatización

Beste erakundeak

https://ror.org/03hp1m080

Dokumentu-mota

Doktore tesia

Hizkuntza

Ingelesa

Eskubideak

Sarbidea

Sarbide irekia

URI

https://hdl.handle.net/20.500.11984/5986

Argitaratzailearen bertsioa

https://doi.org/10.48764/xjax-pm20

Argitaratzailea

Mondragon Unibertsitatea. Goi Eskola Politeknikoa

Laburpena

Autonomous vehicles’ presence is becoming a reality in everyday life, with autonomous driving cars on the road, GOA3-GOA4 trains in the railway domain, or automated guided vehicles in the industrial domain. These autonomous systems must execute complex tasks to perceive the environment and make decisions with limited human interaction or even without human interaction. In that way, localization and motion estimation are critical tasks for the operations an autonomous vehicle must accomplish. Position information is essential to identify the vehicle context and surroundings and move or act accordingly. Computer Vision-based approaches have shown promising results in mobile robotics, drones, or autonomous cars. However, the application and evaluation of CV-based solutions are more limited in the railway domain, especially in challenging environments. In this research, a state of the art of Visual Odometry (VO) and Visual SLAM (vSLAM) algorithms is carried out. In the SOTA, the analyzed VO/vSLAM algorithms are usually evaluated in outdoor street scenarios and do not consider the challenging perception conditions that can be found in urban underground railway scenarios, with low lighting conditions and texture-less areas in tunnels and significant lighting changes between tunnels and railway platforms. Moreover, there is no reference dataset in the VO/vSLAM community with such characteristics, raising the need to generate a proprietary dataset. Considering the lack of GPS signals in underground scenarios, a method is proposed to generate a ground truth of images and poses in underground railway scenarios. The generation process is based on synchronizing geodetic coordinates, train ATP data recorded from the radar and encoder sensors, and a railway gradient map provided by the railway infrastructure manager. Two state-of-the-art and recently proposed VO/vSLAM approaches (ORB-SLAM2 and DF-VO) have been tested in the generated proprietary datasets. These algorithms have achieved good performance in standard benchmarks such as KITTI and represent two distinct VO/vSLAM algorithm types: geometric and learning-based. However, the results show that the scenario lighting characteristics significantly affect the VO/vSLAM algorithms’ performance. In order to afford the challenging lighting conditions of the underground railway domain, the application of a data enhancement technique has been considered (EnlightenGAN). As calibration is critical for geometric VO/vSLAM algorithms, the impact of EnlightenGAN on the camera calibration parameters is also analyzed. The results demonstrate that EnlightenGAN does not considerably affect those parameters. Besides, it improves the performance of both VO/vSLAM approaches in challenging scenarios. [-]

Ibilgailu autonomoen presentzia errealitate bihurtzen ari da egunerokoan, errepidean gidatze autonomoko autoak, trenbideko GOA3-GOA4 trenak edo industriaeremuko ibilgailu automatizatuak direla eta. Sistema autonomo horiek, ataza konplexuak burutu behar dituzte ingurunea hautemateko eta erabakiak hartzeko (giza elkarreragin mugatuarekin edo interakziorik gabe). Hori horrela izanik, lokalizazioa eta mugimenduaren estimazioa eginkizun kritikoak dira ibilgailu autonomo batek egin beharreko eragiketetarako. Posizioari buruzko informazioa funtsezkoa da, ibilgailuaren testuingurua eta ingurunea identifikatzeko, eta horren arabera mugitzeko edo jarduteko. Ikusmen Artifizialean (IA) oinarritutako ikuspuntuek emaitza oparoak erakutsi dituzte robotika mugikorrean, droneetan edo auto autonomoetan. Hala ere, IAean oinarritutako irtenbideen aplikazioa eta ebaluazioa mugatuagoak dira trenbide-eremuan, batez ere, erronka bisual bat aurkezten duten inguruneetan. Ikerketa honetan, Visual Odometry (VO) eta Visual SLAM (vSLAM) algoritmoen uneko egoera (SOTA) egiten da. SOTAn, aztertutako VO/vSLAM algoritmoak, kanpoko agertokietan ebaluatu ohi dira, eta ez dituzte kontuan hartzen hiriko lurpeko trenbide-agertokietan aurki daitezkeen erronka bereizgarriak. Hala nola, tuneletan aurkitzen diren argiztapen baxuko baldintzak, testurarik gabeko eremuak eta tunel-geltokien arteko argiztapen aldaketa nabarmenaktuneletan argiztapen baxuko baldintzekin eta testurarik gabeko eremuekin eta tunelen eta trenbide-geltokien arteko argiztapen-aldaketa nabarmenekin. Gainera, VO/vSLAM komunitatean ez dago ezaugarri horiek dituen erreferentziazko datu baserik, eta horrek berezko datu base bat egiteko beharra sortu du. Lurpeko agertokietan GPS seinalerik ez dagoela kontuan hartuta, irudi eta posizio datu base bat sortzeko metodo bat proposatzen da, lurpeko hiri-trenbide-ingurunean egiaztatutako datuekin. Sortze-prozesua, koordenatu geodesikoen sinkronizazioan, radar-sentsoreetatik eta kodifikatzaileetatik erregistratutako trenaren ATP datuetan, eta tren-azpiegituraren administratzaileak hornitutako trenbide-gradientearen mapan oinarritzen da. Punta-puntako bi VO/vSLAM algoritmo probatu dira (ORBSLAM2 eta DF-VO) sortutako datu baseetan. Algoritmo horiek, errendimendu ona lortu dute KITTI bezalako dataset estandarretan, eta bi algoritmo mota ordezkatzen dituzte: geometrikoak eta ikaskuntzan oinarritutakoak. Hala ere, emaitzek erakutsi dute ingurunearen argiztapen-ezaugarriek nabarmen eragiten diotela VO/vSLAM algoritmoen errendimenduari. Lurpeko trenbidearen argiztapen-baldintza zailei aurre egiteko, datuak hobetzeko teknika bat (EnlightenGAN) aplikatzea erabaki da. Kalibrazioa VO/vSLAM algoritmo geometrikoetarako funtsezkoa denez, EnlightenGAN-ek kameraren kalibrazioparametroetan duen eragina ere aztertu da. Emaitzek erakusten dute EnlightenGANek ez diela nabarmen eragiten parametro horiei. Gainera, bi VO/vSLAM algoritmoen errendimendua hobetzen du argiztapen egoera zailetan. [-]

La presencia de vehículos autónomos se está convirtiendo en una realidad en la vida cotidiana, con coches de conducción autónoma en la carretera, trenes GOA3-GOA4 en el ámbito ferroviario o vehículos guiados automatizados en el ámbito industrial. Estos sistemas autónomos deben ejecutar tareas complejas para percibir el entorno y tomar decisiones con una interacción humana limitada o incluso sin ella. Siendo esto así, la localización y la estimación del movimiento son tareas críticas para las operaciones que debe realizar un vehículo autónomo. La información sobre la posición es esencial para identificar el contexto del vehículo y su entorno y moverse o actuar en consecuencia. Los enfoques basados en la visión artificial (CV) han mostrado resultados prometedores en la robótica móvil, los drones o los coches autónomos. Sin embargo, la aplicación y evaluación de las soluciones basadas en CV son más limitadas en el ámbito ferroviario, especialmente en entornos desafiantes en cuanto a características visuales. En esta investigación, se realiza un estado del arte (SOTA) de los algoritmos de Odometría Visual (VO) y SLAM Visual (vSLAM). En el SOTA, los algoritmos VO/vSLAM analizados suelen evaluarse en escenarios exteriores y no consideran las retadoras características perceptuales que pueden encontrarse en los escenarios ferroviarios subterráneos urbanos, con condiciones de baja iluminación y zonas sin texturas en los túneles y cambios de iluminación significativos entre los túneles y las estaciones ferroviarias. Además, no existe ningún dataset de referencia en la comunidad VO/vSLAM con estas características, lo que ha planteado la necesidad de generar un conjunto de datos propio. Teniendo en cuenta la falta de señales GPS en escenarios subterráneos, se propone un método para generar un dataset de imágenes con datos verificados sobre el terreno de posiciones en escenarios ferroviarios subterráneos urbanos. El proceso de generación se basa en la sincronización de coordenadas geodésicas, los datos de ATP del tren registrados desde los sensores de radar y codificadores, y un mapa de gradiente ferroviario proporcionado por el administrador de la infraestructura ferroviaria. Se han probado dos algoritmos VO/vSLAM de última generación y recientemente propuestos (ORB-SLAM2 y DF-VO) en los dataset generados. Estos algoritmos han logrado un buen rendimiento en datasets estándar como KITTI y representan dos tipos de algoritmos VO/vSLAM distintos: geométricos y basados en el aprendizaje automático. Sin embargo, los resultados muestran que las características de iluminación del escenario afectan significativamente al rendimiento de los algoritmos VO/vSLAM. Para afrontar las difíciles condiciones de iluminación del ámbito ferroviario subterráneo, se ha considerado la aplicación de una técnica de mejora de datos (EnlightenGAN). Como la calibración es fundamental para los algoritmos geométricos VO/vSLAM, también se ha analizado el impacto de EnlightenGAN en los parámetros de calibración de la cámara. Los resultados demuestran que EnlightenGAN no afecta considerablemente a esos parámetros. Además, mejora el rendimiento de ambos enfoques VO/vSLAM en escenarios difíciles. [-]

Bildumak

Tesiak - Ingeniaritza [249]