Qué son las métricas de vanidad y cómo dejar de usarlas

Publicado: 2022-07-01

Eres tan vanidoso (eres tan vanidoso)

Apuesto a que piensas que esta métrica es sobre ti

¿No es así?

– Carly Simón

¿Qué son las métricas de vanidad?

Las métricas de vanidad nos hacen sentir bien, pero no nos ayudan a hacer un mejor trabajo ni a tomar mejores decisiones. Las métricas de vanidad anteponen la óptica al rigor, el aprendizaje y la transparencia. La métrica y/o el resultado se anuncian como una victoria, pero las cosas no cuadran. La mayoría de las veces, se reduce a la falta de experiencia con la narración de datos, la selección de KPI significativos y la comunicación de resultados. En algunos casos, las métricas de vanidad son las únicas métricas disponibles.

Pero todos, en algún momento, se han sentido atraídos por las buenas noticias y han bajado la guardia.

¡Hola a todos, miren el recuento de usuarios únicos de ayer!

¡Hola a todos, miren el registro para el evento!

Es fácil criticar las métricas de vanidad, pero todos hemos estado ahí.

En esta publicación, describiré tres problemas comunes que nos llevan a las métricas de vanidad. Luego, compartiré The Vanity Metric Test , una forma de revisar las métricas y saber si se está desviando hacia el territorio de las métricas vanidosas. Si tiene poco tiempo y desea pasar directamente a la revisión, haga clic aquí.

Problemas de métricas de vanidad

Al conversar con equipos sobre métricas de vanidad, noté tres problemas fundamentales.

  • Las métricas de vanidad carecen de contexto.
  • Las métricas de vanidad tienen una intención poco clara.
  • Las métricas de vanidad no guían la acción y el aprendizaje.

Problema 1: las métricas de vanidad carecen de contexto

En primer lugar, tenemos el problema de la falta de contexto. Las vistas de página, los usuarios activos diarios y los registros significan algo , pero no son muy útiles de forma aislada. Los problemas surgen cuando comunicamos estas métricas sin hacer referencia al panorama general. No es lo que decimos, sino más bien lo que no decimos, por ejemplo, "comparado con", "como entrada a", "equilibrado por", "una señal temprana de", "parte de..." "como un proporción de”, “con las siguientes salvedades”, etc.

La falta de contexto afecta a todos:

  • Marketing: hay muchas maneras de aumentar las vistas de contenido a corto plazo. Es mucho más difícil crear una pieza de contenido perenne que atraiga a compradores potenciales durante semanas y años. Obtener un impulso del tráfico inicial es una señal temprana positiva , pero necesita una nota al pie.
  • Ventas: Alcanzar una meta de ventas trimestrales es un gran logro. Es notable por una variedad de razones. Pero, ¿cómo llegó el equipo al gol? ¿Se doblaron en los precios? ¿Avanzaron los tratos? ¿Robaron a Pedro para pagarle a Pablo? Se requiere más contexto (p. ej., comparar precios con trimestres anteriores).
  • Producto: Lanzar una nueva función es un gran hito. Las primeras métricas de adopción de funciones son una señal positiva. Pero los clientes no necesariamente usan la función. Es posible que solo estén probando la función. De hecho, todas las ventanas emergentes en la aplicación que sugieren que las personas prueben la función pueden aumentar los clics de curiosidad. Probar la característica es una entrada en la probabilidad de uso a largo plazo.

Otros ejemplos de contexto potencialmente faltante: las compras promedio aumentaron, pero también las devoluciones de pedidos. Las conversiones aumentan a partir de anuncios que no hablan de su propuesta de valor. Un canal está canibalizando a otro canal. La aplicación es más fácil para los nuevos usuarios pero más difícil para los usuarios experimentados. El tiempo dedicado a la aplicación se acabó, pero su objetivo es ahorrar tiempo a las personas. Las personas consultan más los datos, pero eso se debe a que tienen problemas para comprender los resultados. Los clientes son más activos en la aplicación, pero han pasado a perder el tiempo en lugar de establecer contactos valiosos.

Note cómo en cada uno de estos ejemplos, el contexto lo es todo. La falta de información de contrapeso hace que sea difícil dar sentido al panorama general y dónde encaja la métrica.

Además del contexto circundante, debemos asegurarnos de que las personas entiendan el por qué .

Problema 2: las métricas de vanidad tienen una intención poco clara

En segundo lugar, tenemos confusión sobre la intención de la métrica. La definición de la métrica puede ser explícita, pero lo que estamos tratando de medir no está claro. Un ejemplo clásico aquí es el de las revisitas. ¿Regresé al producto porque me gustó el producto? ¿O porque el producto era difícil de usar y necesitaba tomarme un descanso? ¿O necesitaba la ayuda del servicio de atención al cliente?

Muchas métricas clásicas de "participación" en la web, como vistas de página, tiempo en la página y duración promedio de la sesión, son restos de una era anterior a los dispositivos móviles, anterior al intercambio de dispositivos, anterior a las 30 pestañas del navegador y anterior a la aplicación de una sola página. Eran los mejores indicadores para el compromiso y el intercambio de valor disponibles en ese momento, pero no son las mejores medidas que tenemos disponibles ahora.

La conexión entre lo que intentamos medir y el "proxy" que hemos elegido es extremadamente clara con algunas métricas. ¡O eso creemos! Por ejemplo, le digo a un amigo que anoche pude dormir ocho horas. Mi amigo interpreta mi intención como, "John está tratando de comunicar que tuvo una buena noche de sueño".

Pero las horas de sueño son solo una de muchas variables. Este estudio menciona ~23 variables de sueño utilizadas al estudiar la calidad del sueño, incluida la latencia REM, el sueño REM, los pequeños movimientos durante el sueño, los tiempos de los diferentes ciclos de sueño, la cantidad de ciclos, etc. Este estudio menciona que la duración del sueño puede tener un "efecto directo". asociación con la mortalidad”. ¡Ay!

Sus autores presentan el Índice de calidad del sueño de Pittsburgh y describen claramente la intención de la métrica.

El índice de calidad del sueño de Pittsburgh se desarrolló con varios objetivos: (1) proporcionar una medida confiable, válida y estandarizada de la calidad del sueño; (2) para discriminar entre "buenos" y "pobres" durmientes; (3) proporcionar un índice que sea fácil de usar para los sujetos y de interpretación para los médicos y los investigadores; y (4) proporcionar una evaluación breve y clínicamente útil de una variedad de trastornos del sueño que afectan la calidad del sueño.

Comunicar la intención es fundamental. Estos autores probablemente enfrentaron compensaciones. La facilidad de uso para los sujetos puede no equivaler inmediatamente a la profundidad de uso para los investigadores. La estandarización es útil para la comparabilidad, pero a menudo implica reducir los factores contextuales. La evaluación es "breve", lo que implica una compensación entre las tasas de finalización de la evaluación y la profundidad de la evaluación.

Una gran declaración de intenciones cubre las compensaciones y objetivos fundamentales.

¿Qué aspecto tiene la declaración efectiva de la intención de la métrica?:

Retransmitir los hechos. Buscando teorías/insights:

Este es el número de interrupciones que tuvimos en los últimos 30 días y cómo se compara con períodos anteriores. Tenga en cuenta el aumento. ¿Qué está pasando aquí, crees? ¿Qué estamos viendo?

Como proxy de algo que no se puede medir directamente:

Nuestra métrica de North Star es "Hágalo usted mismo leal", definido como la cantidad de usuarios que realizaron acciones de proyectos de bricolaje de alto valor combinadas con su participación en la comunidad. Es un indicador de una combinación de lealtad, satisfacción y uso de nuestro producto de manera congruente con nuestra estrategia orientada a la comunidad. Los datos sugieren, pero no prueban (todavía), que este es un indicador líder de mayor valor de por vida del cliente y adquisición viral.

Queremos encontrar una métrica procesable que 1) un equipo pueda mover y 2) contribuya al éxito a mediano plazo del negocio.

Los Hex Pistols se centrarán en mejorar la eficacia del flujo de trabajo de incorporación. Es un acto de malabarismo. Sabemos que podemos apresurar a las personas y no prepararlas para el éxito. O podemos hacerlo muy completo, reduciendo la probabilidad de que vean el producto en acción. Para guiar nuestro trabajo, nos centraremos en disminuir el percentil del 90 % del tiempo para compartir proyectos. Compartir proyectos es una señal temprana de que los usuarios se sienten cómodos y pueden usar el producto.

¡La intención importa!

Problema 3: Las métricas de vanidad no guían la acción y el aprendizaje

Hace poco le pregunté a Twitter y LinkedIn:

  • ¿Cuál es su prueba para cuando algo es una métrica de vanidad? (Gorjeo)
  • ¿Cómo saber cuándo una métrica es una métrica de vanidad? (LinkedIn)

Una de las "pruebas" de más alto rango fue si la métrica guiaba las acciones y decisiones.

Cuando nadie puede actuar de manera significativa sobre lo que nos muestra. Cuando ningún valor posible para la métrica nos impulsará a mejorar algo. Olaberg

El resultado no es procesable. Independientemente [de si] la métrica sube o baja, no cambiamos lo que hacemos. chris lukassen

Cuando nadie se preocupa si deja de subir/estabilizarse/o declinar. Ejemplo: "¡Nuestra puntuación NPS es 90!" un mes seguido de "¡Nuestro puntaje NPS es 50!" próximo mes. Heidi Atkinson

La acción, las decisiones y el aprendizaje son un gran problema.

Si un número sigue subiendo y la única acción que inspira es un ceño fruncido en una reunión de todos, probablemente tenga una métrica de vanidad en sus manos. Si un equipo saca una métrica para celebrar, pero cuando cae, no cambia su estrategia o táctica, probablemente esté viendo una métrica de vanidad.

Los ejemplos incluyen métricas no muy procesables que incluyen:

  • Duración promedio de la sesión. Sube o baja. ¿A qué te dedicas?
  • Nuevos Usuarios (menos canal de adquisición). Sube o baja. ¿A qué te dedicas?
  • Nuevos seguidores. Sube o baja. ¿A qué te dedicas?

Hay un par de advertencias aquí.

Una métrica puede ser significativa pero no procesable de inmediato.

En nuestros Talleres de North Star, enfatizamos que, idealmente, la Métrica de North Star debería estar un poco fuera de alcance. Es el resultado de los equipos que influyen en las diversas entradas de North Star. ¿Por qué no querrías una métrica North Star procesable? El NSM tiene la intención de actuar como un indicador principal del desempeño empresarial sostenible (en el marco de tiempo de varios años). Casi por definición, estará un poco alejado del trabajo del día a día. Necesitamos insumos que sirvan como "puente" entre el trabajo diario y ese aporte significativo para el éxito empresarial.

Realizamos un seguimiento de nuestra métrica North Star y, si se detiene, nos obligará a reconsiderar nuestra estrategia, pero un equipo no se despierta cada mañana con la esperanza de influir en ella directamente.

Una métrica puede ser exploratoria. Aún no sabemos qué hacer con él.

Los equipos generalmente son conscientes de la prueba de "capacidad de acción", pero casi hasta la exageración. Pasarán meses y meses tratando de descubrir una "métrica mágica" o un conjunto de métricas mágicas que lo hagan todo: accionables, predictivas, explicativas, etc. pueden “controlar” los movimientos en la métrica.

¿El resultado? Los equipos usan métricas de vanidad que son "seguras" porque transmiten buenas noticias. No son útiles, pero no pretenden ser procesables, por lo que no alteran las plumas. No queremos esto.

Está bien usar métricas exploratorias en su lugar. Solo llámalos.

Una ligera reducción de la incertidumbre puede ser suficiente para inspirar la acción.

El trabajo de producto consiste en tomar decisiones en condiciones de incertidumbre. Si desea hasta que esté 100% seguro de algo, estará actuando demasiado tarde. Por lo tanto, no deberíamos apuntar a métricas perfectas que reduzcan toda incertidumbre sobre las acciones que tomamos.

La Ley de Goodhart y la tensión entre buena medición y buenos objetivos

La Ley de Goodhart establece que:

“Cuando una medida se convierte en un objetivo, deja de ser una buena medida”.

Compare esto con la guía de mi compañero de trabajo Adam Greco sobre Vanity Metrics:

Si alguien no va a ser promovido o despedido si una métrica sube o baja, probablemente sea una métrica de vanidad.

Aquí tenemos una tensión/paradoja. Una vez que una métrica se convierte en un objetivo y se convierte en una señal de hacer un buen o mal trabajo, corre el riesgo de que se convierta en una métrica vanidosa porque la gente se asegurará de que suba. Y, sin embargo, queremos que nuestras métricas signifiquen algo: que sean relevantes, que sean buenos representantes y que informen decisiones relevantes.

Ejemplos de la Ley de Goodhart:

  • Si un equipo tiene el objetivo de enviar características de forma predecible, será menos probable que procese la no confirmación de nuevos comentarios que pueden parecer "impredecibles".
  • Si un equipo tiene el objetivo de aumentar el tamaño promedio de los pedidos, será más probable que aumente el tamaño promedio de los pedidos a expensas de los resultados futuros, la lealtad a la marca, etc.
  • Si un gerente tiene el objetivo de contratar a una cierta cantidad de personas en un trimestre, es más probable que contrate a alguien que no sea el mejor candidato.

Entonces, ¿qué nos puede decir esto sobre el uso de métricas más efectivas y menos métricas vanidosas? En primer lugar, son responsables de seleccionar metas y objetivos significativos y de definir "barandillas" eficaces para comprender cualquier efecto adverso de segundo o tercer orden. No podemos derrotar la Ley de Goodhart por completo, debe asumir que las personas jugarán el juego que insiste en que jueguen, pero podemos esforzarnos por establecer controles y equilibrios.

Usando el consejo de Adam, también puede preguntarse, "¿qué queremos recompensar aquí?" Ser responsable de los resultados comerciales tiene sentido. Pero no desea promocionar a las personas en función de que alcancen métricas arbitrarias y teatro de éxito. Creo firmemente en la idea de Bill Walsh de The Score Takes Care of Itself. Los objetivos deben fomentar hábitos y rutinas positivas.

Resumen

Describimos tres problemas comunes asociados con las métricas de vanidad:

  • Las métricas de vanidad carecen de contexto
  • Las métricas de vanidad tienen una intención poco clara
  • Las métricas de vanidad no guían la acción y el aprendizaje

El uso efectivo de las métricas incluye brindar contexto, establecer su intención y elegir métricas que guíen la acción y el aprendizaje. Señalar una métrica y decir "esa es una métrica de vanidad" es equivalente a decir "usted está usando esa métrica como una métrica de vanidad".

La prueba métrica de vanidad

Hemos discutido varios problemas que contribuyen al uso de métricas de vanidad y problemas asociados con métricas de vanidad. Ahora es el momento de poner a prueba sus métricas.

En esta sección, presentamos diez afirmaciones que describen el uso Notará los temas que exploramos anteriormente en esta publicación: contexto, intención, acción responsable y aprendizaje.

Para cada declaración, le sugerimos:

  1. Discuta el aviso con su equipo
  2. Buscar perspectivas diversas
  3. Marcar elementos que necesitan atención

S1: El equipo comprende la razón fundamental para realizar el seguimiento de la métrica.

Sugerencia: incluya orientación sobre métricas en su plan de incorporación de empleados. Los clientes de Amplitude utilizan con frecuencia nuestra función Notebooks para proporcionar contexto en torno a las métricas clave.


S2: presentamos la métrica junto con las métricas relacionadas que agregan el contexto necesario. Cuando se presenta de forma aislada, agregamos las notas al pie y las referencias requeridas.

Sugerencia: normalice la visualización de medidas de seguridad y métricas relacionadas en las presentaciones.


S3: Las hipótesis (y suposiciones) que conectan la métrica con resultados significativos e impacto están claramente articuladas, disponibles y abiertas a cuestionamiento/discusión.

Sugerencia: use diagramas de árbol (árboles de impulsores, North Star Framework, árboles de suposiciones, etc.) y diagramas de relaciones causales para comunicar relaciones causales hipotéticas. Considere la posibilidad de jugar el juego "Random Jira Ticket". ¿Puede elegir al azar un ticket de Jira y "caminar por el árbol" desde ese elemento hasta algo que importará a largo plazo?


S4: El cálculo/definición de la métrica es inspeccionable, verificable y descomponible. Sus diversos componentes, cláusulas, características, etc., pueden separarse. Alguien con buen conocimiento del dominio puede entender cómo funciona.

Sugerencia: siempre que sea posible, comparta la métrica para que alguien pueda hacer clic en cómo se calcula. Por ejemplo, si la métrica involucra un filtro como "compartido con más de 7 usuarios en los 7 días", debería ser posible ajustar esa cláusula y ver cómo ese número se compara con el número total de usuarios. Genere confianza al permitir que las personas vuelvan a crear la métrica.


S5: La métrica es parte de un tablero, cuadro de mando o informe revisado y discutido regularmente. Ha sobrevivido a un escrutinio saludable. Si la métrica es más exploratoria y no probada (o un "Tenía curiosidad si..."), ese contexto es claro desde el principio.

Consejo: el escrutinio es algo bueno. Cuantos más ojos pueda obtener en una métrica, mejor. Invita a la crítica. Registre las preguntas a medida que surjan. Haga que cada “muestra” de la métrica (por ejemplo, en todas las manos o revisión del producto) sea sucesivamente mejor.


S6: El equipo tiene una teoría de trabajo sobre lo que indican los cambios en la métrica.

Sugerencia: aquí hay un mensaje básico para que piense: "Un aumento en esta métrica es una señal de que _______, y una disminución en esta métrica es una señal de que _______".


S7: Con el tiempo, la métrica proporciona un valor y una confianza cada vez mayores. Podemos señalar decisiones y acciones específicas que resultan del uso de la métrica (y esas acciones son revisables). La empresa invertiría en seguir dándole seguimiento y comunicándolo.

Sugerencia: Indique los niveles de confianza al mostrar las métricas y mantenga un registro de decisiones/acciones. Intente normalizar el hecho de no estar 100 % seguro al principio y equilibrar la visualización de métricas con altos niveles de confianza con nuevas métricas candidatas con niveles de confianza más bajos.


S8: El equipo establece umbrales de acción claros (p. ej., “si excede X, entonces podemos considerar Y”). La métrica puede bajar. Y si se cae, probablemente inspirará inspección/acción.

Sugerencia: Realice un taller de planificación de escenarios para comprender mejor cómo los movimientos en la métrica dictarán el comportamiento futuro. Configure monitores en su herramienta de análisis para que le avise cuando haya alcanzado un umbral.


S9: La métrica es comparativa (a lo largo del tiempo, frente a métricas similares, etc.). En términos más generales, si se realiza un seguimiento durante un período prolongado, es posible hacer comparaciones de manzanas contra manzanas entre períodos.

Sugerencia: Incluya vistas de período tras período en sus tableros para obtener más información sobre las comparaciones.


S10: El equipo usa la métrica para comunicar desafíos Y victorias. No solo victorias.

Consejo: Los líderes establecen el tono aquí. Analice las situaciones que no resultaron como esperaba y cómo utilizó los datos para resolverlo.


Resumen

Las métricas de vanidad son métricas que nos hacen sentir bien, pero no nos ayudan a hacer un mejor trabajo ni a tomar mejores decisiones. ¡Nadie es inmune al uso de métricas de vanidad! La clave es asegurarse de proporcionar contexto, indicar la intención de las métricas que utiliza y aclarar las acciones y decisiones que impulsará la métrica (o métricas).

Para definir métricas significativas, consulte el Libro de estrategias de North Star. Establecer una métrica de North Star y una constelación de entradas procesables es una forma poderosa de evitar el uso de métricas de vanidad.

CTA del anuncio del libro de jugadas de North Star