Caso de estudio | Lyft

Lyft es uno de los nacimientos de startups más interesantes de los últimos años en Estados Unidos. Esta empresa dedicada a ofrecer soluciones de transporte y movilidad, llegó al mercado con una propuesta colaborativa y diferencial para conductores y usuarios, estimulando de una forma diferente su modelo de negocios.

Lyft, con su sede en la ciudad de San Francisco, ofrece más de 50 millones de viajes al mes a través de su aplicación y estos son cubiertos por una gran red de conductores afiliados, lo que ha hecho que la aplicación empiece a competir de forma fuerte con Uber. Para Lyft cada viaje es un proceso de generación de datos, pero con su gran crecimiento, los volúmenes de datos podían empezar a ser difíciles de analizar.

Descubre más sobre como Lyft pudo atender de forma eficiente sus necesidades de datos aprovechando los grafos.

Lyft una empresa diferente

Lyft nace como una iniciativa diferente, es una empresa que toma todas las decisiones operativas según sus datos. Xin embargo, su acelerado crecimiento y popularidad en los usuarios volvió realmente complejo el proceso de encontrar los datos correctos para alimentar los modelos de toma de decisiones. Lyft ofrece a rededor de 50 millones de viajes al mes en más de 640 ciudades de Estados Unidos y 9 ciudades en Canadá, lo que representa un gran volumen constante de datos siendo recibidos y pendientes de analizar.

Dato el papel vital que poseen los datos y el análisis de los mismos en la empresa, la velocidad con la que los usuarios pueden aprovecharlos, analizarlos y obtener conocimiento a través de ellos es fundamental. En un principio, descubrir los datos correctos y estudiarlos, fue un proceso lento e ineficientes, pues estaban contenidos en tablas. En muchas ocasiones, las tablas debido a sus características tenían nombres similares y esto ocasionaba errores o perdidas de tiempo.

Lyft

Los analistas de Lyft pedían ayuda a sus compañeros de trabajo para entender cómo había sido construida una tabla, tomando en cuenta muestras de al menos las primeras 100 filas de una tabla, para tener una idea de lo que contenía. El crecimiento comercial de Lyft llevó al extremo el desafío del descubrimiento de datos, debido a que sus bases de datos estaban compuestas por al rededor 10 petabytes en miles de tablas, de diferente composición. Tamika Tannis, ingeniero de software en Lyft entendió que este volumen de datos seguiría creciendo , por lo que decidió mejorar los procesos para entender los datos en la empresa.

Soluciones basadas en grafos

El equipo de desarrollo de Lyft decidió crear una herramienta eficiente que simplificara las consultas de datos, tomando como usuario inicial a los analistas de datos. Pensaron la herramienta para que ofreciera tres formas complementarías para entregar las consultas de datos. Tomando en cuenta las búsquedas basadas en el linajes de datos y en la red.

El desarrollo de esta solución nació apuntando principalmente a realizar búsquedas eficaces, clasificando los resultados por popularidad y relevancia. Para eso, también debían considerar el linaje de los datos, rastreando las conexiones entre todos los conjuntos de datos y así poder obtener respuestas y conocimiento dentro de la red. Esto ayudaría principalmente a los analistas, sin importar el nivel de formación o capacitación que tuvieran.

La solución, Amundsen, utiliza una arquitectura de microservicio. En el, el servicio databuilder toma los datos en el servicio de búsquedas respaldado por elasticsearch, y el servicio de de metadatos es ejecutado a través de un grafo construido en Neo4j. En este sistema, Elasticsearch potencia la búsqueda proporcionando relevancia basada en términos de búsqueda, la posición del usuario en la empresa y la popularidad que posee en las tablas Todas las conexiones entre estos puntos se realizan primero en Neo4j.

Lyft

Lyft optó por Neo4j para desarrollar sus grafos gracias a la forma en la que se capturan los datos. Neo4j, ofrece una gran flexibilidad a la hora de iterar rápidamente en nuevas funciones. Esto representa un factor importante para Lyf, ya que cuando ingresa una nueva pieza de metadatos que debe ser representada en el grafo, solo deben crear un nuevo nodo y representar sus relaciones.

Neo4j proporciona grandes características al funcionamiento de Amundsen. Sirve como fuente de metadatos editables, proporciona una base de formulación de nuevos proyectos para calidad de datos y mucho más

Los resultados

El nivel de implementación de la solución Amundsen es alto dentro de Lyft. El 90% de los científicos de datos que están dentro de la base de usuarios, lo consultan de forma semanal. Ha sido evidente un incremento en la productividad de toda la organización, elevando los niveles de rendimiento en tareas relacionadas a ciencia de datos superior al 30% Uno de los aspectos más relevantes es que la herramienta ha sido utilizada inclusive por gerentes y personal de atención al cliente para encontrar lo que necesitan.

Los usuarios tienen la posibilidad de comentar detalles y reportes directamente en la aplicación, teniendo así una participación importante que ayuda a mejorar el funcionamiento de la plataforma desarrollar nuevas funciones y reportar errores.

Descubre más sobre las posibilidades que tienes de crear soluciones para tus proyectos con el uso de Grafos en Grapheverywhere.

Share This