Comment MSN classe le contenu

MSN publie des articles d’actualités, des galeries de photos et des vidéos de milliers d’éditeurs dans le monde et promeut ce contenu dans les produits Microsoft, notamment Microsoft Edge, Microsoft Windows, MSN.com et l’application mobile MSN.

Chaque fois qu’un consommateur consulte le flux MSN, il s’actualise avec le contenu personnalisé le plus récent. En fonction de différents signaux, les algorithmes sélectionnent et trient le contenu dans le flux avec une supervision éditoriale. Ce système de contenu de classement est conçu pour impliquer et informer, en choisissant les histoires qui sont les plus pertinentes pour chaque personne, tout en garantissant que le contenu est opportun, digne des actualités, de haute qualité et sûr pour le travail et la maison.

L’importance relative de ces paramètres peut varier chaque fois qu’un flux d’actualités est consulté par un utilisateur. Les algorithmes évoluent constamment à mesure que nous identifions et améliorons continuellement les signaux et expérimentons de nouvelles fonctionnalités.

Dans cet article

Pertinence de l’utilisateur

Mise en forme

Taux de clics (CTR)

Actualisation et rapidité

Tendances et actualités

Autorité de marque

Signaux négatifs et clickbait

Pertinence de l’utilisateur

Microsoft fournit à chaque consommateur un flux d’actualités personnalisé pour répondre à l’ensemble unique d’intérêts et de préférences de chaque personne pour le contenu. Au cœur de cette personnalisation se trouvent des algorithmes qui correspondent aux préférences de l’utilisateur et à la compréhension des documents. Ces algorithmes sont conçus pour sélectionner le contenu le plus pertinent pour chaque utilisateur.

Les préférences d’un utilisateur sont apprises au fil du temps par le système à l’aide de deux approches :

Personnalisation explicite. L’algorithme respecte la façon dont les utilisateurs configurent manuellement leurs paramètres, y compris des actions comme suivre certaines rubriques, aimer ou ne pas aimer du contenu spécifique, ou indiquer une préférence d’éditeur.
Personnalisation implicite. Conformément aux paramètres de confidentialité d’un utilisateur, au fur et à mesure qu’une personne lit du contenu et s’engage avec les produits Microsoft, les articles sont analysés à la recherche de modèles afin de mieux comprendre les préférences de l’utilisateur. Les algorithmes recherchent des modèles à long terme et à court terme pour chaque utilisateur, reconnaissant que les intérêts de contenu peuvent varier à court terme, tout en présentant des tendances à long terme différentes. (Pour en savoir plus sur la confidentialité microsoft , cliquez ici).

Les algorithmes d’apprentissage automatique favorisent une compréhension approfondie des documents au-delà de la simple reconnaissance des « rubriques » : le système effectue une analyse sur chaque document pour obtenir des insights basés sur du texte et des métadonnées et convertit le contenu en modèle mathématique.

Les deux modèles mathématiques (préférences utilisateur et compréhension des documents) peuvent être comparés à la sélection du contenu correspondant le plus proche pour chaque personne.

En plus de mettre directement en correspondance le contenu avec chaque utilisateur, les algorithmes recherchent également le contenu qui engage les utilisateurs ayant des préférences similaires.

Mise en forme

Nous voulons promouvoir le contenu de qualité dans notre flux qui ne présente aucun défaut visuel, comme des éléments d’en-tête manquants, des listicules manquants, des URL manquantes ou des mots/expressions non pertinents qui entraînent une expérience utilisateur médiocre. Pour éviter que votre contenu ne soit exposé à une exposition limitée, veillez à suivre les instructions de publication, notamment les suivantes :

Blocs longs de texte non mis en forme

Le contenu de haute qualité et sans défaut, tel que le texte non mis en forme, a une probabilité plus élevée d’obtenir une visibilité dans le flux. Assurez-vous qu’il dispose de la structure et du codage de phrases et de paragraphes appropriés lorsque vous le chargez. Les articles sans sauts de ligne ou sauts de paragraphe ne seront pas promus dans le flux.

Exemple de texte mis en forme : <p>Il s’agit d’un paragraphe.</p> (Notez le code d’ouverture et de fermeture).

Liens d’article d’origine

Les liens vers l’article d’origine ne peuvent apparaître qu’en bas de l’article. Les billets qui renvoient à l’original dans le corps principal du texte auront une portée limitée.

URL en texte clair

Si vous avez des liens dans votre contenu, vous devez vous assurer qu’ils sont correctement mis en forme. Par instance, si les liens de votre contenu ressemblent à ceci : https://www.contoso.com/r/linden-new-york votre contenu n’est pas correctement mis en forme et peut avoir une exposition limitée ou être supprimé en conséquence.

Format de date valide

Pour nous assurer que notre contenu est pertinent pour nos consommateurs, nous devons nous assurer que les articles que nous leur montrons sont bien datés. Les dates doivent être exprimées à l’aide des formats de date RFC 3339 ou RFC 822.

Exemples de format de date valides :

Mer, 04 oct 2017 15:00:00 +0200
2017-10-04T13:00:00+00:00

Taux de clics (CTR)

Le taux de clics (CTR), c’est-à-dire le nombre de clics divisé par le nombre d’impressions, est une mesure de l’engagement utilisé pour déterminer le classement du contenu. Le CTR est principalement influencé par les éléments de contenu affichés lors de la promotion du lien, y compris le titre/titre, l’image et l’résumé. Le Machine Learning juge le potentiel CTR pour chaque élément de contenu.

Le contenu avec un CTR élevé est généralement bon, bien qu’il existe également une catégorie de contenu qui peut avoir un CTR élevé, mais qui génère également une insatisfaction des lecteurs - clickbait. Pour plus d’informations à ce sujet, consultez notre section sur les signaux négatifs.

Actualisation et rapidité

Le contenu d’un flux d’actualités devrait être « frais » et opportun. Par conséquent, le contenu plus récent est en moyenne plus élevé que le contenu plus ancien. Les dernières nouvelles, financières ou sportives sont importantes parce que ces secteurs verticaux ont tendance à avoir des histoires qui vieillissent rapidement. Les algorithmes reconnaissent d’autres sujets ont tendance à être plus persistants et permettent à ce contenu d’être plus ancien, ce qui le reconnaît. Le contenu avec des dates de publication inexactes peut être classé plus bas.

Tendances et actualités

En moyenne, les articles sur les sujets tendance, les dernières nouvelles et les actualités sont classés plus haut. Les premières positions dans le flux sont souvent réservées aux nouvelles les plus intéressantes de la journée.

Les tendances sont observées en surveillant plusieurs sources de données externes, publiques et propriétaires. Le système surveille ce qui est tendance sur Internet en général, ainsi que ce qui est tendance sur les canevas Microsoft et la recherche Bing. Ces signaux sont combinés et calculés pour évaluer chaque élément de contenu en fonction de son potentiel de tendance. Les éléments avec plus de potentiel sont classés plus haut dans le flux.

Autorité de marque

Les articles d’éditeurs d’actualités nationaux ou mondiaux bien connus ont un poids plus lourd, car les consommateurs et les éditeurs les considèrent comme plus faisant autorité et de confiance. Cependant, les histoires de marques locales ou moins connues sont également des composants importants des flux personnalisés et sont souvent classés très bien en raison d’autres signaux.

Les algorithmes ne prennent pas encore en compte l’autorité par sujet : par exemple, certains éditeurs font plus autorité dans le domaine du sport, tandis que d’autres se spécialisent dans la politique. Il s’agit d’un domaine que Microsoft s’attend à améliorer dans les futures mises à jour de classement.

Signaux négatifs et clickbait

Certains contenus génèrent des clics, mais génèrent également l’insatisfaction des utilisateurs qui perçoivent un titre comme trompeur (ne fournissant pas le contenu promis par le titre) ou l’histoire de moins bonne qualité. Par exemple, des titres qui sont trompeurs, exagèrent l’histoire, ou sont trop choquants ou émotifs. Connu sous le nom de clickbait, ce contenu peut être classé plus bas en fonction du comportement de l’utilisateur qui suggère une insatisfaction par le biais d’actions telles que le taux de rebond élevé.

Les modèles spécifiques sont les suivants :

Un titre qui va au-delà d’un teaser, surtout avec la surutilisation de l’adverbe « this » (par exemple, Never Drink This on a Plane).
Titre qui déforme le contenu réel de l’article et/ou l’importation, ce qui ne répond pas aux attentes des lecteurs. Une promesse non tenue peut aller de l’omission d’une ressource (telle qu’une vidéo référencée dans le titre) ou de ne pas traiter du tout les informations clés.

Contenu susceptible de causer de l’inconfort

Dans le cadre de nos efforts continus pour améliorer la qualité du contenu et maintenir une expérience positive pour tous les utilisateurs, MSN applique des normes plus strictes au contenu qui peut être perçu comme offensant, graphique ou inapproprié. Les publications peuvent être déprioritisées ou supprimées si les titres, les images ou le corps de texte comprennent des éléments dérangeants ou titillants qui n’ont pas de pertinence éditoriale ou sociétale plus large.

Voici quelques exemples de contenu susceptible de déclencher ces signaux :

Représentations détaillées des fonctions corporelles (p. ex., flatulence, excrément, miction, pimple popping)
Maladies sexuellement transmissibles
Rencontres obscènes (p. ex., rencontres avec des travailleurs du sexe, sexe public, nudité publique) où il n’y a pas de pertinence sociale plus large, comme un scandale politique.
Les histoires criminelles qui incluent des détails excessifs (pour instance, les détails d’un acte sexuel ou d’un meurtre horrible) qui vont au-delà des faits nus
Récits titillants ou sur le thème de l’adulte (p. ex., conseils sexuels explicites) qui ne conviennent pas au grand public
Contenu faisant référence à la déviance et à la bestialité sexuelles
Comportement sexuel animal
Décomposition graphique (p. ex., viande infestée d’asticots)

Ce type de contenu peut réduire la confiance des lecteurs et est souvent signalé comme inapproprié pour une distribution à grande échelle.

Selon la gravité, l’exposition du contenu suivant peut être limitée ou supprimée en conséquence, ce qui entraîne une diminution de l’impression au niveau de l’article :

Commérages de célébrités : Nous limitons maintenant l’exposition du contenu des célébrités en se concentrant sur (mais sans s’y limiter) les combats de célébrités, la sexualisation de ce que les célébrités portent, les dysfonctionnements de la garde-robe, les activités quotidiennes des célébrités, les problèmes de relation, etc. Ce contenu apparaîtra toujours sur les pages MSN, mais ne sera exposé qu’aux utilisateurs qui recherchent ce type de contenu.

Comment MSN classe le contenu

Dans cet article

Pertinence de l’utilisateur

Mise en forme

Blocs longs de texte non mis en forme

Liens d’article d’origine

URL en texte clair

Format de date valide

Taux de clics (CTR)

Actualisation et rapidité

Tendances et actualités

Autorité de marque

Signaux négatifs et clickbait

Contenu susceptible de causer de l’inconfort

Ces informations vous ont-elles été utiles ?

Nous vous remercions de vos commentaires.