junio 22, 2021

El viaje a los datos 3.0

por Michael Li, vicepresidente de datos de Coinbase

Los datos son una mina de oro para una empresa. Si está bien administrado, proporciona la claridad y la información que conduce a una mejor toma de decisiones a escala, además de una herramienta importante para hacer que todos rindan cuentas.

Sin embargo, la mayoría de las empresas están estancadas en Data 1.0, lo que significa que están explotando los datos como un servicio manual y receptivo. Algunos han comenzado a migrar a Data 2.0, que utiliza una automatización simple para mejorar la productividad del equipo. La complejidad de los datos criptográficos ha abierto nuevas oportunidades en los datos para pasar a la nueva frontera de datos 3.0, donde puede aumentar la creación de valor a través de la inteligencia y la automatización sistemáticas. Es nuestro viaje a Data 3.0.

Coinbase no es una empresa financiera ni una empresa de tecnología, es una empresa de cifrado. Esta distinción tiene grandes implicaciones para la forma en que trabajamos con los datos. Como empresa de cifrado, trabajamos con tres tipos principales de datos (en lugar del habitual uno o dos tipos de datos), cada uno de los cuales es complejo y variado:

  1. Blockchain: descentralizado y accesible al público.
  2. Producto: grande y en tiempo real.
  3. Financiero: alta precisión y sujeto a numerosas regulaciones financieras / legales / de cumplimiento.

Nos enfocamos en cómo podemos aumentar la creación de valor haciendo que estos datos variados funcionen, eliminando los silos de datos, resolviendo los problemas antes de que comiencen y creando oportunidades para Coinbase que no existían.

Habiendo trabajado en empresas de tecnología como LinkedIn y eBay, así como en la industria financiera, incluida Capital One, he visto de primera mano la evolución de Data 1.0 a Data 3.0. En Data 1.0, los datos se consideran una función reactiva que proporciona servicios manuales ad hoc o extinción de incendios en situaciones de emergencia.

En Data 2.0, se aprovechan herramientas simples y soluciones de terceros para automatizar partes de tareas manuales y repetitivas para mejorar la productividad del equipo. Aunque, en su mayor parte, el equipo de datos todavía depende de agregar recursos humanos para aportar más valor. Y luego, finalmente, en la etapa Data 3.0, los sistemas de datos se crean con tecnologías internas y de código abierto de manera concertada para evolucionar fundamentalmente la creación de valor.

Camino a Data Nirvana 3.0

La mayor ventaja de Data 3.0 es la eficiencia y la coherencia que se crean en todos los flujos de datos. Permite que una empresa cree una base de datos completa que está configurada para el éxito a largo plazo de la empresa al tiempo que satisface las necesidades inmediatas con recursos limitados. Esto puede no ser evidente cuando la empresa es pequeña y crece rápidamente, pero a medida que la empresa se escala y experimenta un hipercrecimiento, la coherencia entre los flujos de datos (o la falta de ellos) puede convertirse en un problema importante y difícil de corregir sin establecer la visión desde el principio.

Incluso las mejores empresas de tecnología del mundo pueden crear malos hábitos con equipos de ingeniería dispares que crean productos y servicios de datos personalizados para resolver problemas específicos. Esto puede dejar grandes lagunas en los flujos de trabajo estandarizados de un sistema de datos de un extremo a otro, lo que dificulta la creación y el aprovechamiento de datos a escala. Peor aún, estos esfuerzos únicos pueden llegar a ser lo suficientemente grandes como para convertirse en sistemas independientes que requerirán tiempo para consolidarse y migrar. Estos a menudo siguen siendo sistemas heredados que crean una inmensa deuda técnica para la empresa a lo largo del tiempo.

Con las tecnologías de blockchain en constante cambio y los casos de uso de datos, nuestro trabajo de Data 3.0 está lejos de terminar. Dicho esto, estoy bastante orgulloso del progreso que hemos logrado. Aquí hay una descripción general de nuestro trabajo y nuestros sistemas hasta la fecha.

Almacenamiento y procesamiento de datos

Independientemente de sus opciones para el uso de tecnologías específicas, necesita una estrategia clara para tres componentes principales: separación de almacenamiento, separación computacional y semántica para la «fuente única de la verdad». Desacoplar estos componentes y definir una estrategia técnica clara nos permite evitar cuellos de botella en el rendimiento y la capacidad a medida que crece el negocio.

Plataforma de datos y aplicaciones

Alors que nous utilisons une combinaison de technologies internes, d’outils open source et de solutions de fournisseurs pour répondre aux diverses demandes, nous faisons des compromis explicites en décidant des solutions spécifiques pour chaque catégorie afin de ne pas créer de duplication ou d’ambiguïté en la carretera. Esto se aplica a cómo administramos nuestro sistema de eventos, nuestro flujo de trabajo de orquestación de datos, nuestra capa de inteligencia empresarial y nuestra plataforma de experimentación. También da como resultado una arquitectura escalable y altamente desacoplada.

Plataforma y aprendizaje automático

Si bien esta es probablemente la parte más « brillante » del equipo de datos dada la exageración de la IA en los últimos años, también es la parte más transversal del equipo de datos. Nuestra verdadera plataforma de aprendizaje automático de extremo a extremo, Nostradamus, habilita todos los modelos de aprendizaje automático de Coinbase, incluidas las canalizaciones de datos, la capacitación, la implementación, el servicio y la experimentación. Dado que la plataforma de aprendizaje automático se diseñó teniendo en cuenta todas las demás partes del ecosistema de datos, no solo está diseñada para permitir que el aprendizaje automático resuelva problemas inmediatos, sino también para desarrollarse y evolucionar con la empresa.

Ciencia de datos y productos de datos

Estas dos áreas son probablemente la parte más amigable del equipo de datos, ya que son esencialmente la capa de presentación de información de datos destilada que está organizada para deleitar y crear valor para nuestros clientes. También son los beneficiarios más directos de todos los esfuerzos anteriores.

El mandato más importante del equipo es que los científicos de datos deben salir de la máquina y centrarse en hacer posible que la máquina proporcione datos y genere valor para los consumidores de forma escalable (en lugar de ‘ser un intermediario entre la máquina y los consumidores de datos’) .

Esta pieza apareció originalmente en TechCrunch.


The Data Journey 3.0 se publicó originalmente en The Coinbase Blog on Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado originalmente en el blog de Coinbase