Es sorprendente cómo los cuadrotores han escalado durante la última década. Ahora estamos en el punto en el que están al borde de lo desechable, al menos desde una perspectiva comercial o de investigación: por un poco más de 200 dólares, puedes comprar un pequeño dron de 27 gramos, de código abierto, y todo lo que tienes que hacer es enseñarle a volar. Sin embargo, ahí es donde las cosas se vuelven un poco más desafiantes, porque enseñar a volar a los drones no es un proceso sencillo. Gracias a una buena simulación y a técnicas como el aprendizaje por refuerzo, es mucho más fácil dotar de autonomía a los drones que antes. Pero no suele ser un proceso rápido y puede resultar complicado realizar una transición fluida de la simulación a la realidad. El Laboratorio de Percepción y Robótica Ágil de la Universidad de Nueva York ha logrado agilizar y simplificar mucho el proceso de conseguir autonomía básica para trabajar en drones: el sistema del laboratorio es capaz de entrenar un dron en simulación desde cero hasta un vuelo estable y controlable. 18 segundos planos en una MacBook Pro. Y, en realidad, lleva más tiempo compilar y actualizar el firmware en el dron que todo el proceso de entrenamiento. ARPL NYU Entonces, el dron no solo es capaz de mantener un vuelo estacionario estable mientras rechaza golpes, empujones y viento, sino que también es capaz de volar trayectorias específicas. Nada mal durante 18 segundos, ¿verdad? Una de las cosas que normalmente ralentiza los tiempos de entrenamiento es la necesidad de seguir refinando exactamente para qué estás entrenando, sin refinarlo tanto que solo estés entrenando tu sistema para volar en tu simulación específica en lugar del mundo real. La estrategia utilizada aquí es lo que los investigadores llaman un plan de estudios (también se puede considerar como una especie de plan de lección) para ajustar la función de recompensa utilizada para entrenar el sistema mediante el aprendizaje por refuerzo. El plan de estudios comienza siendo más indulgente y aumenta gradualmente las sanciones para enfatizar la solidez y la confiabilidad. Se trata de eficiencia: hacer el entrenamiento que necesitas hacer de la manera que debe hacerse para obtener los resultados que deseas, y nada más. Hay otros trucos más sencillos que también optimizan esta técnica para aumentar la velocidad. Los algoritmos de aprendizaje por refuerzo profundo son particularmente eficientes y aprovechan la aceleración de hardware que viene con los procesadores de la serie M de Apple. La eficiencia del simulador multiplica los beneficios de la eficiencia de muestra impulsada por el plan de estudios del proceso de aprendizaje por refuerzo, lo que lleva a ese tiempo de capacitación increíblemente rápido. Este enfoque no se limita a simples drones diminutos: funcionará en prácticamente cualquier drone, incluidos los más grandes y caros, o incluso uno que usted mismo construya desde cero. Jonas Eschmann En el vídeo de arriba se nos dice que se necesitaron minutos en lugar de segundos para entrenar una política para el dron, aunque los investigadores esperan que se puedan lograr 18 segundos incluso para un dron más complejo como este en un futuro cercano. Y todo es de código abierto, por lo que, de hecho, puedes construir un dron y enseñarle a volar con este sistema. Pero si espera un poco, las cosas solo mejorarán: los investigadores nos dicen que están trabajando en la integración con el piloto automático del dron de código abierto PX4. A más largo plazo, la idea es tener una política única que pueda adaptarse a diferentes condiciones ambientales, así como a diferentes configuraciones de vehículos, lo que significa que podría funcionar con todo tipo de robots voladores en lugar de solo cuadrotores. Todo lo que necesita para ejecutar esto usted mismo está disponible en GitHub, y el documento está en ArXiv aquí. Desde su sitio Artículos Artículos relacionados en la Web

Source link