Como o MSN classifica o conteúdo

O MSN publica notícias, galerias de fotografias e vídeos de milhares de editores globalmente e promove este conteúdo em todos os produtos Microsoft, incluindo o Microsoft Edge, Microsoft Windows, MSN.com e a aplicação MSN para dispositivos móveis.

Sempre que um consumidor vê o feed MSN, é atualizado com o conteúdo personalizado mais recente. Com base em vários sinais, os algoritmos selecionam e ordenam o conteúdo no feed com supervisão editorial. Este sistema de conteúdos de classificação foi concebido para interagir e informar, escolhendo histórias que são as mais relevantes para cada pessoa, ao mesmo tempo que garante que o conteúdo é oportuno, digno de notícias, de alta qualidade e seguro para o trabalho e para casa.

A importância relativa destes parâmetros pode variar sempre que um feed de notícias é visualizado por um utilizador. Os algoritmos estão sempre a evoluir à medida que identificamos e melhoramos continuamente os sinais e experimentamos novas funcionalidades.

Neste artigo

Relevância do utilizador

Formatação

Taxa de clickthrough (CTR)

Atualização e linha cronológica

Tendências e newsworthiness

Autoridade de marca

Sinais negativos e clickbait

Relevância do utilizador

A Microsoft fornece a cada consumidor um feed de notícias personalizado para satisfazer o conjunto exclusivo de interesses e preferências de conteúdo de cada pessoa. No centro desta personalização estão os algoritmos que correspondem às preferências dos utilizadores com a compreensão do documento. Estes algoritmos foram concebidos para selecionar o conteúdo mais relevante para cada utilizador.

As preferências de um utilizador são aprendidas ao longo do tempo pelo sistema através de duas abordagens:

  • Personalização explícita. O algoritmo respeita a forma como os utilizadores configuram manualmente as respetivas definições, incluindo ações como seguir determinados tópicos, gostar ou não gostar de conteúdo específico ou indicar uma preferência de publicador.
  • Personalização implícita. Em conformidade com as definições de privacidade de um utilizador, à medida que uma pessoa lê conteúdo e interage com os produtos da Microsoft, as histórias são analisadas para obter padrões para compreender melhor as preferências do utilizador. Os algoritmos procuram padrões de longo e curto prazo para cada utilizador, reconhecendo que os interesses de conteúdo podem variar a curto prazo, ao mesmo tempo que apresentam diferentes tendências a longo prazo. (Leia mais sobre a Privacidade da Microsoft aqui).

Os algoritmos de aprendizagem automática impulsionam uma compreensão profunda dos documentos para além de simplesmente reconhecer "tópicos": o sistema efetua análises em cada documento para obter informações com base em texto e metadados e converte o conteúdo num modelo matemático.

Os dois modelos matemáticos ( preferências de utilizador e compreensão de documentos) podem ser comparados com a seleção de conteúdo que corresponde à correspondência mais próxima de cada pessoa.

Além de corresponder diretamente o conteúdo a cada utilizador, os algoritmos também procuram conteúdos que envolvam os utilizadores com preferências semelhantes.

Formatação

Queremos promover o conteúdo de qualidade no nosso feed que não tem defeitos visuais, como elementos de cabeçalho em falta, listículas em falta, URLs em falta ou palavras/expressões irrelevantes que resultem numa experiência de utilizador fraca. Para evitar que os seus conteúdos vejam exposição limitada, certifique-se de que está a seguir as diretrizes de publicação, incluindo o seguinte:

Blocos longos de texto não formatado

O conteúdo de alta qualidade e sem defeitos, como texto não formatado, tem uma maior probabilidade de obter visibilidade no feed. Certifique-se de que tem a frase e a estrutura de parágrafo e a codificação adequadas ao carregá-la. Os artigos sem quebras de linha ou quebras de parágrafo não serão promovidos no feed.

Exemplo de texto formatado: <p>Este é um parágrafo.</p> (Repare no código de abertura e de fecho).

Ligações de artigos originais

As ligações para o artigo original só podem aparecer na parte inferior do artigo. As publicações que ligam ao original no corpo principal do texto terão um alcance limitado.

URL de texto simples

Se tiver ligações nos seus conteúdos, tem de se certificar de que as mesmas estão formatadas adequadamente. Por exemplo, se as ligações no seu conteúdo tiverem o seguinte aspeto: https://www.conotoso.com/r/linden-new-york, o conteúdo não está formatado corretamente e poderá ter uma exposição limitada ou ser removido em conformidade.

Formato de data válido

Para garantir que os nossos conteúdos são relevantes para os nossos consumidores, temos de garantir que os artigos que lhes mostramos têm uma data exata. As datas têm de ser expressas com formatos de data RFC 3339 ou RFC 822.

Exemplos de formato de data válidos:

  • Casa, 04 out 2017 15:00:00 +0200
  • 10-10-04T08:00:00-05:00

Taxa de clickthrough (CTR)

A taxa de cliques (CTR) — o número de cliques divididos pelo número de impressões — é uma medida de envolvimento utilizada na determinação da classificação de conteúdos. O CTR é influenciado principalmente pelos elementos de conteúdo que são apresentados ao promover a ligação, incluindo o título/título, imagem e abstrato. A aprendizagem automática avalia o potencial ctr para cada parte do conteúdo.

O conteúdo com CTR elevado é geralmente bom, embora também exista uma categoria de conteúdo que pode ter uma CTR elevada, mas também gera insatisfação por parte dos leitores - clickbait. Veja mais informações abaixo na nossa secção sobre Sinais negativos.

Atualização e linha cronológica

Espera-se que os conteúdos num feed de notícias sejam "frescos" e oportunos. Como resultado, os conteúdos mais recentes são classificados acima do conteúdo mais antigo, em média. As últimas notícias, finanças ou histórias desportivas são importantes porque estes verticais tendem a ter histórias que envelhecem rapidamente. Os algoritmos reconhecem outros tópicos tendem a ser cada vez mais verdes e permitem que este conteúdo seja mais antigo, reconhecendo isso. Os conteúdos com datas publicadas imprecisas podem ser classificados mais baixos.

Em média, as histórias sobre tópicos populares, notícias de última hora e notícias de manchete são mais bem classificadas. As posições de topo no feed são muitas vezes reservadas para as principais notícias noticiosas do dia.

As tendências são observadas através da monitorização de várias origens de dados externas, públicas e proprietárias. O sistema monitoriza as tendências na Internet em geral, bem como o que está em tendência nas telas da Microsoft e na pesquisa do Bing. Estes sinais são combinados e têm uma média para classificar cada item de conteúdo no seu potencial de tendência. Os itens com mais potencial são classificados mais alto no feed.

Autoridade de marca

As histórias de conhecidos editores de notícias nacionais ou globais têm um peso mais pesado, porque tanto os consumidores como os editores as vêem como mais autoritativas e confiáveis. No entanto, as histórias de marcas locais ou menos conhecidas também são componentes importantes de feeds personalizados e são muitas vezes altamente classificadas devido a outros sinais.

Os algoritmos ainda não consideram autoridade por tópico: por exemplo, alguns editores são mais autoritativos na área do desporto, enquanto outros especializam-se em política. Esta é uma área que a Microsoft espera melhorar em futuras atualizações de classificação.

Sinais negativos e clickbait

Alguns conteúdos geram cliques, mas também geram insatisfação por parte dos utilizadores que consideram uma manchete enganosa (não entregando o conteúdo prometido) ou a história de menor qualidade. Os exemplos incluem manchetes que são enganosas, exageram a história, ou são excessivamente chocantes ou emocionais. Popularmente conhecido como clickbait, este conteúdo pode ser classificado mais baixo com base no comportamento do utilizador que sugere insatisfação através de ações como taxa de devolução elevada.

Padrões específicos incluem:

  • Uma manchete que vai além de um teaser, especialmente com o uso excessivo do adverb "this" (por exemplo, Never Drink This on a Plane).
  • Uma manchete que deturpa o conteúdo real da história e/ou importação, falhando assim em satisfazer as expectativas dos leitores. Uma promessa quebrada pode ir desde omitir um recurso (como um vídeo referenciado no cabeçalho) ou não abordar as informações principais.

Conteúdo que pode causar desconforto

Como parte dos nossos esforços contínuos para melhorar a qualidade dos conteúdos e manter uma experiência positiva para todos os utilizadores, o MSN aplica padrões mais rigorosos a conteúdos que possam ser considerados ofensivos, gráficos ou inadequados. As publicações podem ser desprioritizadas ou removidas se manchetes, imagens ou texto corporal incluírem material perturbador ou titulante que carece de uma relevância editorial ou social mais ampla.

Exemplos de conteúdo que pode acionar estes sinais incluem:

  • Representações detalhadas de funções corporais (por exemplo, flatulência, excrementos, urinação, borbulhas a estalar)
  • Doenças sexualmente transmissíveis
  • Lewd encontra (por exemplo, reuniões com trabalhadores sexuais, sexo público, nudez pública) onde não há uma relevância social mais ampla, como um escândalo político.
  • Histórias de crime que incluem detalhes excessivos (por exemplo, as especificidades de um ato sexual ou um assassinato horrível) que vão além dos factos nus
  • Histórias titulantes ou temáticas para adultos (por exemplo, conselhos sexuais explícitos) não são apropriadas para o público em geral
  • Conteúdo que referencia desvio sexual e bestialidade
  • Comportamento sexual animal
  • Decomposição gráfica (por exemplo, carne infestada de larvas)

Este tipo de conteúdo pode reduzir a confiança dos leitores e, muitas vezes, é sinalizado como inadequado para uma ampla distribuição.

Consoante a gravidade, o conteúdo seguinte pode ter exposição limitada ou removido em conformidade, o que leva a uma diminuição da impressão ao nível do artigo:

  • Fofocas de celebridades: Estamos agora a limitar a exposição de conteúdos de celebridades focados (mas não limitados a) lutas de celebridades, sexualizar o que as celebridades estão a usar, avarias no guarda-roupa, atividades diárias de celebridades, problemas de relacionamento, etc. No entanto, este conteúdo continuará a aparecer nas páginas do MSN, mas só será exposto aos utilizadores que procuram este tipo de conteúdo.