Как MSN ранжирует контент

MSN публикует новости, фотоальбомы и видео от тысяч издателей по всему миру и продвигает это содержимое в продуктах Майкрософт, включая Microsoft Edge, Microsoft Windows, MSN.com и мобильное приложение MSN.

Каждый раз, когда потребитель просматривает веб-канал MSN, он обновляется с помощью последнего персонализированного содержимого. На основе различных сигналов алгоритмы выбирают и упорядочить содержимое в канале с редакционной контролем. Эта система ранжирования контента предназначена для привлечения и информирования, выбора историй, которые наиболее актуальны для каждого человека, а также обеспечения того, что содержимое является своевременным, заслуживающим новостей, высококачественным и безопасным для работы и дома.

Относительная важность этих параметров может меняться каждый раз, когда пользователь просматривает новостную ленту. Алгоритмы постоянно развиваются, так как мы постоянно выявляем и совершенствуем сигналы и экспериментируем с новыми функциями.

В этой статье

Релевантность пользователей

Форматирование

Частота переходов (CTR)

Свежесть и своевременность

Тренды и новости

Авторитет бренда

Отрицательные сигналы и clickbait

Релевантность пользователей

Корпорация Майкрософт предоставляет каждому потребителю персонализированную новостную ленту в соответствии с уникальным набором интересов и предпочтений каждого пользователя в отношении содержимого. В основе такой персонализации находятся алгоритмы, которые соответствуют предпочтениям пользователей и пониманию документов. Эти алгоритмы предназначены для выбора наиболее подходящего содержимого для каждого пользователя.

С течением времени система изучает предпочтения пользователя с помощью двух подходов:

  • Явная персонализация. Алгоритм учитывает, как пользователи вручную настраивают свои параметры, включая такие действия, как выполнение определенных разделов, симпатия или неприязнь к определенному содержимому или указание предпочтения издателя.
  • Неявная персонализация. В соответствии с параметрами конфиденциальности пользователя, когда пользователь читает содержимое и взаимодействует с продуктами Майкрософт, истории анализируются на наличие шаблонов, чтобы лучше понять предпочтения пользователя. Алгоритмы ищут как долгосрочные, так и краткосрочные шаблоны для каждого пользователя, признавая, что интересы к содержимому могут различаться в краткосрочной перспективе, в то же время проявляя различные долгосрочные тенденции. (Дополнительные сведения о конфиденциальности Майкрософт см. здесь.

Алгоритмы машинного обучения позволяют получить глубокое понимание документов помимо простого распознавания "тем". Система выполняет анализ каждого документа для получения аналитических сведений на основе текста и метаданных и преобразует содержимое в математическую модель.

Две математические модели — пользовательские предпочтения и понимание документов — можно сравнить, чтобы выбрать содержимое, которое является наиболее подходящим для каждого человека.

Помимо непосредственного сопоставления содержимого с каждым пользователем, алгоритмы также ищут содержимое, которое привлекает пользователей с аналогичными предпочтениями.

Форматирование

Мы хотим повысить качество содержимого в нашем веб-канале, которое не имеет визуальных дефектов, таких как отсутствующие элементы заголовка, отсутствующие списки, отсутствующие URL-адреса или ненужные слова или фразы, которые приводят к плохому взаимодействию с пользователем. Чтобы избежать ограниченного раскрытия содержимого, убедитесь, что вы выполняете рекомендации по публикации, включая следующие:

Длинные блоки неформатированного текста

Содержимое высокого качества и без дефектов, таких как неформатированный текст, имеет более высокую вероятность получения видимости в веб-канале. При отправке убедитесь, что он имеет правильную структуру предложения и абзаца, а также кодирование. Статьи без разрывов строк или абзацных разрывов не будут повышены в веб-канале.

Пример отформатированного текста: <p>Это абзац.</p> (обратите внимание на код открытия и закрытия).

Ссылки на исходные статьи

Ссылки на исходную статью могут отображаться только в нижней части статьи. Публикации, которые ссылались на исходный текст в основном тексте, будут иметь ограниченный охват.

URL-адрес в виде обычного текста

Если в вашем содержимом есть ссылки, необходимо убедиться, что они отформатированы соответствующим образом. Например, если ссылки в содержимом выглядят следующим образом: https://www.conotoso.com/r/linden-new-york содержимое неправильно отформатировано и может иметь ограниченную экспозицию или быть удалено соответствующим образом.

Допустимый формат даты

Чтобы убедиться, что наше содержимое имеет отношение к нашим потребителям, мы должны убедиться, что статьи, которые мы показываем им, точно датированы. Даты должны быть выражены в форматах RFC 3339 или RFC 822.

Примеры допустимого формата даты:

  • Ср, 04 Октября 2017 15:00:00 +0200
  • 2017-10-04T13:00:00+00:00

Частота переходов (CTR)

Коэффициент щелчков (CTR) — количество щелчков, разделенных на количество показов, — это один из показателей вовлеченности, используемых при определении ранжирования контента. На CTR в основном влияют элементы содержимого, которые отображаются при продвижении ссылки, включая заголовок, заголовок, изображение и абстракт. Машинное обучение оценивает потенциал CTR для каждого фрагмента содержимого.

Контент с высоким CTR, как правило, хорош, хотя есть также категория контента, которая может иметь высокий CTR, но также генерирует недовольство со стороны читателей - clickbait. Дополнительные сведения об этом см. ниже в разделе Отрицательные сигналы.

Свежесть и своевременность

Ожидается, что содержимое в новостной ленте будет "свежим" и своевременным. В результате более новое содержимое в среднем выше, чем старое содержимое. Последние в новостях, финансах или спортивных историях важны, потому что эти вертикали, как правило, истории, которые стареют быстро. Алгоритмы распознают другие темы, как правило, более вечнозеленые и позволяют этому содержимому быть старше, признавая это. Содержимое с неточными опубликованными датами может быть ранжировано ниже.

В среднем, рассказы о модных темах, критические новости и заголовки новостей ранжируются более высоко. Верхние позиции в ленте часто зарезервированы для ведущих новостей, достойных новостей дня.

Тенденции наблюдаются путем мониторинга нескольких внешних источников данных, как общедоступных, так и частных. Система отслеживает тенденции в Интернете в целом, а также тенденции на холстах Майкрософт и поискЕ Bing. Эти сигналы объединяются и усреднены для того, чтобы оценить каждый элемент контента по его потенциалу быть трендом. Элементы с большим потенциалом занимают более высокое место в веб-канале.

Авторитет бренда

Рассказы от известных национальных или глобальных издателей новостей имеют более тяжелый вес, потому что потребители и издатели как считают их более авторитетными и доверенными. Тем не менее, истории от местных или менее известных брендов также являются важными компонентами персонализированных каналов и часто высоко ранжируются из-за других сигналов.

Алгоритмы пока не учитывают авторитет по темам: например, некоторые издатели более авторитетны в области спорта, а другие специализируются на политике. Это область, в рамках будущих обновлений ранжирования корпорация Майкрософт планирует улучшить.

Отрицательные сигналы и clickbait

Некоторые содержимое генерирует щелчки, но также вызывает недовольство пользователей, которые считают заголовок вводящим в заблуждение (не доставляя содержимое, обещанное заголовком) или историю более низкого качества. Примеры включают заголовки, которые вводят в заблуждение, преувеличивают историю или чрезмерно шокируют или эмоциональны. Широко известное как clickbait, это содержимое может быть ранжировано ниже в зависимости от поведения пользователя, которое предполагает неудовлетворенность благодаря таким действиям, как высокий показатель отказов.

К конкретным шаблонам относятся:

  • Заголовок, который выходит за рамки тизера, особенно с чрезмерными использованием наречия "это" (например, Никогда не пить это на самолете).
  • Заголовок, который искажает фактическое содержимое истории и /или импорт, тем самым не оправдавая ожидания читателя. Нарушенное обещание может варьироваться от пропуска ресурса (например, видео, на который ссылается заголовок) или вообще не обращения к ключевой информации.

Содержимое, которое может вызвать дискомфорт

В рамках наших текущих усилий по улучшению качества содержимого и поддержанию положительного опыта для всех пользователей MSN применяет более строгие стандарты к содержимому, которое может восприниматься как оскорбительный, графический или неуместный. Публикации могут быть обезличены или удалены, если заголовки, изображения или основной текст содержат тревожные или тилляющие материалы, которые не имеют более широкой редакционной или социальной значимости.

Ниже приведены примеры содержимого, которое может активировать эти сигналы:

  • Подробное изображение функций тела (например, метеоризм, экскременты, мочеиспускание, прыщи)
  • Заболевания, передающиеся половым путем
  • Непристойные встречи (например, встречи с секс-работниками, общественный секс, публичная нагота), где нет более широкой социальной значимости, таких как политический скандал.
  • Криминальные истории, которые включают в себя чрезмерные подробности (например, особенности сексуального акта или ужасного убийства), которые выходят за рамки голых фактов
  • Titillating или взрослые тематические истории (например, явные сексуальные советы) не подходит для общей аудитории
  • Содержимое, ссылающееся на сексуальное отклонение и жалость
  • Сексуальное поведение животных
  • Графическое разложение (например, мясо, зараженное личинками)

Этот тип содержимого может снизить доверие читателей и часто помечается как неприемлемый для широкого распространения.

В зависимости от серьезности следующее содержимое может иметь ограниченную экспозицию или удалить соответствующим образом, что приводит к уменьшению впечатления на уровне статьи:

  • Знаменитости сплетни: В настоящее время мы ограничиваем экспозицию знаменитости содержимого, сосредоточившись на (но не ограничиваясь) знаменитости бои, сексуализация, что знаменитости носят, неисправности гардероба, повседневной деятельности знаменитости, вопросы отношений и т. д. Это содержимое по-прежнему будет отображаться на страницах MSN, однако будет доступно только пользователям, которые ищут этот тип контента.