Cómo MSN clasifica el contenido

MSN publica noticias, galerías fotográficas y vídeos de miles de editores de todo el mundo y promueve este contenido en todos los productos de Microsoft, incluidos Microsoft Edge, Microsoft Windows, MSN.com y la aplicación móvil MSN.

Cada vez que un consumidor ve la fuente MSN, se actualiza con el contenido personalizado más reciente. En función de varias señales, los algoritmos seleccionan y ordenan el contenido en la fuente con supervisión editorial. Este sistema de contenido de clasificación está diseñado para involucrar e informar, eligiendo historias que sean las más relevantes para cada persona, a la vez que garantiza que el contenido sea oportuno, destacado, de alta calidad y seguro para el trabajo y el hogar.

La importancia relativa de estos parámetros puede variar cada vez que un usuario visualiza una fuente de noticias. Los algoritmos siempre evolucionan a medida que identificamos y mejoramos continuamente las señales y experimentamos con nuevas características.

En este artículo

Relevancia del usuario

Formato

Tasa de porcentaje de clics o "click-through" (CTR)

Frescura y actualidad

Tendencias y capacidad de noticias

Autoridad de marca

Señales negativas y clickbait

Relevancia del usuario

Microsoft ofrece a cada consumidor una fuente de noticias personalizada para satisfacer el conjunto único de intereses y preferencias de contenido de cada persona. En el núcleo de esta personalización están los algoritmos que coinciden con las preferencias de usuario con la comprensión del documento. Estos algoritmos están diseñados para seleccionar el contenido más relevante para cada usuario.

Con el tiempo, el sistema aprende las preferencias de un usuario mediante dos enfoques:

  • Personalización explícita. El algoritmo respeta el modo en que los usuarios configuran manualmente su configuración, incluidas acciones como seguir determinados temas, indicar que les gusta contenido específico o indicar una preferencia del editor.
  • Personalización implícita. De acuerdo con la configuración de privacidad de un usuario, a medida que una persona lee contenido e interactúa con los productos de Microsoft, se analizan las historias para buscar patrones que comprendan mejor las preferencias del usuario. Los algoritmos buscan patrones tanto a largo plazo como a corto plazo para cada usuario, reconociendo que los intereses de contenido pueden variar a corto plazo, mientras que muestran diferentes tendencias a largo plazo. (Más información sobre privacidad de Microsoft aquí).

Los algoritmos de aprendizaje automático impulsan una comprensión profunda del documento más allá de simplemente reconocer 'temas': el sistema realiza análisis en cada documento para obtener información basada en texto y metadatos y convierte el contenido en un modelo matemático.

Los dos modelos matemáticos (preferencias del usuario y comprensión del documento) se pueden comparar con el contenido seleccionado que sea la coincidencia más cercana para cada persona.

Además de hacer coincidir directamente el contenido con cada usuario, los algoritmos también buscan contenido que atraiga a los usuarios con preferencias similares.

Formato

Queremos promover el contenido de calidad en nuestra fuente que no tiene defectos visuales como falta de elementos de encabezado, listas que faltan, url que faltan o palabras o frases irrelevantes que dan como resultado una experiencia de usuario deficiente. Para evitar que su contenido vea una exposición limitada, asegúrese de seguir las directrices de publicación, incluidas las siguientes:

Bloques largos de texto sin formato

El contenido de alta calidad y sin defectos como texto sin formato tiene una mayor probabilidad de obtener visibilidad en la fuente. Asegúrese de que tenga la estructura y la codificación de párrafos y oraciones adecuadas cuando la cargue. Los artículos sin saltos de línea o de párrafo no se promoverán en la fuente.

Ejemplo de texto con formato: <p>Este es un párrafo.</p> (Tenga en cuenta el código de apertura y cierre).

Vínculos de artículo originales

Los vínculos al artículo original solo pueden aparecer en la parte inferior del artículo. Las publicaciones que vuelvan a vincularse al original en el cuerpo principal del texto tendrán un alcance limitado.

URL de texto sin formato

Si tiene vínculos en el contenido, debe asegurarse de que tienen el formato correcto. Por ejemplo, si los vínculos del contenido tienen este aspecto: https://www.contoso.com/r/linden-new-york, el contenido no tiene el formato correcto y puede tener una exposición limitada o eliminarse en consecuencia.

Formato de fecha válido

Para garantizar que nuestro contenido sea relevante para nuestros consumidores, debemos asegurarnos de que los artículos que mostramos estén fechados con precisión. Las fechas deben expresarse con formatos de fecha RFC 3339 o RFC 822.

Ejemplos de formato de fecha válidos:

  • Mida, 04 de octubre de 2017, 15:00:00 +0200
  • 2017-10-04T13:00:00+00:00

Tasa de porcentaje de clics o "click-through" (CTR)

La tasa de clics (CTR), el número de clics divididos por el número de impresiones, es una medida de participación que se usa para determinar la clasificación del contenido. CtR se ve influenciada principalmente por los elementos de contenido que se muestran al promover el vínculo, incluyendo el título/título, la imagen y el abstracto. El aprendizaje automático juzga el potencial de CTR para cada parte del contenido.

El contenido con alta CTR es generalmente bueno, aunque también hay una categoría de contenido que puede tener alta CTR, pero también genera insatisfacción de los lectores - clickbait. Vea más información sobre esto a continuación en nuestra sección sobre Señales negativas.

Frescura y actualidad

Se espera que el contenido de una fuente de noticias sea "fresco" y puntual. Como resultado, el contenido más reciente ocupa una posición más alta que el contenido más antiguo, en promedio. Las últimas noticias, finanzas o deportes son importantes porque estos verticales tienden a tener historias que envejecen rápidamente. Los algoritmos reconocen otros temas tienden a ser más perenne y permiten que este contenido sea más antiguo, reconociendo eso. El contenido con fechas publicadas inexactas puede estar en una posición inferior.

En promedio, las historias sobre temas más populares, noticias de última hora y titulares se clasifican más altamente. Las posiciones principales en la fuente a menudo están reservadas para las principales noticias del día.

Las tendencias se observan supervisando varios orígenes de datos externos, tanto públicos como de propiedad. El sistema supervisa las tendencias en Internet en general, así como las tendencias en los lienzos de Microsoft y las búsquedas de Bing. Estas señales se combinan y promedian para valorar cada elemento de contenido en su potencial de tendencia. Los elementos con más potencial se clasifican más alto en la fuente.

Autoridad de marca

Las historias de editores de noticias nacionales o globales conocidos tienen un peso más pesado, porque tanto los consumidores como los editores los ven como más autoritativos y confiables. Sin embargo, las historias de marcas locales o menos conocidas también son componentes importantes de fuentes personalizadas y a menudo se clasifican altamente debido a otras señales.

Los algoritmos aún no consideran la autoridad por tema: por ejemplo, algunos editores son más autoritarios en el área de los deportes, mientras que otros se especializan en política. Esta es una área que Microsoft espera mejorar en futuras actualizaciones de clasificación.

Señales negativas y clickbait

Algunos contenidos generan clics, pero también genera insatisfacción de los usuarios que perciben que un titular es engañoso (no entrega el contenido que prometió) o la historia de menor calidad. Algunos ejemplos son titulares que engañan, exageran la historia o son demasiado impactantes o emocionales. Popularmente conocido como clickbait, este contenido se puede clasificar en una posición inferior en función del comportamiento del usuario que sugiere insatisfacción a través de acciones como la tasa de rebote alta.

Los patrones específicos incluyen:

  • Un titular que va más allá de un teaser, especialmente con el uso excesivo del adverbio "esto" (por ejemplo, Nunca beba esto en un avión).
  • Un titular que tergiversa el contenido de la historia real y/o importa, por lo que no cumple las expectativas del lector. Una promesa errónea puede ir desde omitir un activo (como un vídeo al que se hace referencia en el titular) o no tratar la información clave en absoluto.

Contenido que puede causar molestias

Como parte de nuestros continuos esfuerzos para mejorar la calidad del contenido y mantener una experiencia positiva para todos los usuarios, MSN aplica estándares más estrictos al contenido que pueda considerarse ofensivo, gráfico o inadecuado. Las publicaciones pueden desprioritizarse o eliminarse si los titulares, las imágenes o el texto del cuerpo incluyen material perturbador o tientante que carece de una mayor relevancia editorial o social.

Algunos ejemplos de contenido que puede desencadenar estas señales son:

  • Representaciones detalladas de funciones corporales (p. ej., flatulencia, excremento, orinar, brotes)
  • Enfermedades de transmisión sexual
  • Encuentros lascivos (por ejemplo, reuniones con trabajadoras sexuales, sexo público, desnudez público) donde no hay una relevancia social más amplia, como un escándalo político.
  • Historias de delitos que incluyen detalles excesivos (por ejemplo, los detalles de un acto sexual o un horrible asesinato) que van más allá de los hechos desnudos
  • Historias brillantes o con temática para adultos (por ejemplo, consejos sexuales explícitos) no son apropiadas para el público general
  • Contenido que hace referencia a la desviación sexual y bestialidad
  • Comportamiento sexual animal
  • Descomposición gráfica (por ejemplo, carne infestada de gusanos)

Este tipo de contenido puede reducir la confianza del lector y a menudo se marca como inadecuado para una distribución amplia.

Según la gravedad, el siguiente contenido puede tener exposición limitada o eliminarse en consecuencia, lo que provoca una disminución de la impresión a nivel de artículo:

  • Chismes de celebridades: Ahora limitamos la exposición del contenido de celebridades centrándonos en (pero no limitado a) peleas de celebridades, sexualizando lo que las celebridades están usando, fallos de guardarropa, actividades cotidianas de celebridades, problemas de relaciones, etc. Sin embargo, este contenido seguirá apareciendo en las páginas MSN y solo se expondrá a los usuarios que busquen este tipo de contenido.