Tesis:
Grid-based perception framework using LiDAR sensors : a multi-representation approach
- Autor: JIMENEZ BERMEJO, Victor
- Título: Grid-based perception framework using LiDAR sensors : a multi-representation approach
- Fecha: 2024
- Materia:
- Escuela: E.T.S. DE INGENIEROS INDUSTRIALES
- Departamentos: SIN DEPARTAMENTO DEFINIDO
- Acceso electrónico: https://oa.upm.es/80767/
- Director/a 1º: VILLAGRÁ SERRANO, Jorge
- Director/a 2º: GODOY MADRID, Jorge Luis
- Resumen: In recent decades, autonomous driving research has received considerable attention due to its potential to improve people's lives by reducing traffic accidents and increasing travel efficiency.
As automated vehicles progress towards more realistic driving scenarios, they have encountered scenes with increasing complexity and unforeseen situations. Current efforts are primarily focused on enabling autonomous driving in urban scenarios, which present exceptionally complex challenges due to their uncontrolled nature, intricate maneuvers, and high density and diversity of objects.
Within the field of perception of the environment, a great variety of approaches have been proposed showing promising results. However, these strategies need further refinement to meet the stringent requirements for ensuring safe driving. Additionally, many of them focus on addressing specific tasks individually, wasting potential beneficial interactions with other complementary strategies and lacking a comprehensive environment description.
This Ph.D. thesis introduces a novel LiDAR-based perception framework for road user detection and occupancy estimation. It leverages four different environment representations to provide a more comprehensive description: point cloud, grid map, object-level description and lane grid. Firstly, LiDAR data is used to detect and precisely locate all the surrounding obstacles. Because the amount of data in LiDAR point clouds is vast, and many laser beams generally hit on the background, an obstacle-ground classification algorithm is applied. Subsequently, the resulting classified point cloud, along with other potential input data, such as information from digital maps or Vehicle-to-Everything communications, is modeled and fused into an occupancy grid map. Since driving scenarios change dynamically, this grid is extended to also estimate the velocity and type of the objects. This environment representation is highly valuable as it offers a general description of the surroundings, modeling all obstacles despite their type and shape, while also characterizing the non-occupied areas as free or unknown. However, there are certain aspects that are challenging to achieve using only this approach. Consequently, to obtain a more complete estimation of the road users, an object-level tracking strategy based on model assumptions is employed, thereby, obtaining a type-based shape description and a consistent ID over time. Furthermore, to achieve a more understandable description of the driving scene, a lane grid is also implemented, re-representing the information of the occupancy grid at a higher level and focusing only on the road lanes.
This thesis has been conducted under the activities of the AUTOPIA research group. This group possesses various autonomous vehicle prototypes with which the proposed perception framework has been extensively validated in real-world scenarios.
RESUMEN
En las últimas décadas, la investigación sobre conducción autónoma ha recibido especial atención debido a su potencial para mejorar la vida de las personas a través de reducir el número de accidentes de tráfico y aumentar la eficiencia en los desplazamientos.
A medida que los vehículos automatizados avanzan hacia escenarios de conducción más realistas, se han encontrado con escenas de creciente complejidad y situaciones imprevistas. Los esfuerzos actuales están centrados principalmente en habilitar la conducción autónoma en escenarios urbanos, ya que estos presentan desafíos excepcionalmente complejos debido a ser entornos no controlados, con maniobras intrincadas y una alta densidad y diversidad de objetos.
Dentro del ámbito de percepción del entorno, se han propuesto una gran diversidad de enfoques que muestran resultados prometedores. Sin embargo, estas estrategias aún tienen que perfeccionarse para cumplir con los rigurosos requisitos que garantizan una conducción segura. Además, muchas de ellas se centran en abordar tareas específicas de forma individual, desaprovechando los posibles beneficios de las interacciones con otras estrategias complementarias y careciendo además de una descripción del entorno exhaustiva.
Esta tesis de doctorado presenta un novedoso sistema de percepción basado en sensores LiDAR para la detección de usuarios viales y la estimación de ocupación del espacio. Este aprovecha cuatro representaciones distintas del entorno para proporcionar una descripción más completa: nube de puntos (point cloud), mapa de rejilla (grid map), descripción a nivel de objetos (object-level description) y rejilla de carretera (lane grid). En primer lugar, los datos LiDAR se utilizan para detectar y ubicar con precisión todos los obstáculos circundantes. Dado que la cantidad de datos de las nubes de puntos LiDAR es vasta y muchos haces láser suelen impactar en el suelo, se aplica un algoritmo de clasificación obstáculo-suelo. Posteriormente, la nube de puntos clasificada resultante, junto con otros posibles datos de entrada, como información de mapas digitales o comunicaciones Vehicle-to-Everything, se modelan y fusionan en una rejilla de ocupación. Debido a que los escenarios de conducción cambian de forma dinámica, esta rejilla es extendida para estimar también la velocidad y el tipo de los objetos. Esta representación del entorno es muy valiosa, ya que ofrece una descripción general de los alrededores, modelando todos los obstáculos, independientemente de su tipo y forma, al mismo tiempo que caracteriza las áreas no ocupadas como libres o desconocidas. Sin embargo, hay ciertos aspectos que son difíciles de lograr utilizando solo este enfoque. En consecuencia, para obtener una estimación más completa de los usuarios viales, se emplea una estrategia de seguimiento a nivel de objetos basada en modelos, obteniendo así una descripción de la forma sustentada en el tipo de objeto y una identificación consistente a lo largo del tiempo. Además, para lograr una descripción más comprensible de la escena de conducción, también se implementa una rejilla de carretera que redescribe la información del la rejilla de ocupación a alto nivel y se centra únicamente en los carriles de la carretera.
Esta tesis se ha llevado a cabo en el marco de las actividades del grupo de investigación AUTOPIA. Este grupo cuenta con varios prototipos de vehículos autónomos con los cuales se ha podido validar ampliamente el sistema de percepción propuesto en escenarios del mundo real.