Як MSN ранжирує вміст

MSN публікує новини, фотогалереї та відео від тисяч видавців у всьому світі та рекламує цей вміст у продуктах Microsoft, зокрема в Microsoft Edge, Microsoft Windows, MSN.com та мобільній програмі MSN.

Щоразу, коли користувач переглядає канал MSN, він оновлюється з останнім персоналізованим вмістом. На основі різних сигналів алгоритми вибирають і замовляти вміст у каналі з редакційним наглядом. Ця система ранжирування вмісту призначена для залучення та інформування, вибору найважливіших для кожної особи історій, а також забезпечення своєчасності, новинного, високоякісного та безпечного для роботи та дому.

Відносна важливість цих параметрів може змінюватися щоразу, коли користувач переглядає канал новин. Алгоритми завжди розвиваються, оскільки ми постійно виявляємо та покращуємо сигнали та експериментуємо з новими функціями.

У цій статті

Відповідність користувача

Форматування

Швидкість клацання (CTR)

Свіжість і своєчасність

Тенденції та готовність до новин

Бренд-авторитет

Від'ємні сигнали та clickbait

Відповідність користувача

Корпорація Майкрософт надає кожному споживачу персоналізований канал новин для задоволення унікального набору інтересів і параметрів кожного користувача для вмісту. В основі цієї персоналізації лежить алгоритми, які відповідають параметрам користувача з розумінням документа. Ці алгоритми призначені для вибору найвідповіднішого вмісту для кожного користувача.

Параметри користувача з часом вивчаюються системою за допомогою двох підходів:

  • Явна персоналізація. Алгоритм поважає те, як користувачі вручну настроюють свої параметри, зокрема такі дії, як стеження за певними темами, вподобання або не подобається певний вміст або позначення параметрів видавця.
  • Неявна персоналізація. Відповідно до настройок конфіденційності користувача, коли користувач читає вміст і взаємодіє з продуктами Microsoft, історії аналізуються на наявність закономірностей, щоб краще зрозуміти вподобання користувача. Алгоритми виглядають як для довгострокових, так і короткострокових шаблонів для кожного користувача, визнаючи, що інтереси вмісту можуть варіюватися в короткостроковій перспективі, при цьому проявляючи різні довгострокові тенденції. (Докладні відомості про конфіденційність корпорації Майкрософт див. тут).

Алгоритми машинного навчання виводять глибоке розуміння документів за рамки простої розпізнавання "тем": система виконує аналіз кожного документа, щоб отримати аналітичні висновки на основі тексту та метаданих і перетворює вміст на математичну модель.

Дві математичні моделі – параметри користувача та розуміння документа – можна порівняти з вибраним вмістом, який є найближчим збігом для кожної особи.

Окрім безпосереднього зіставлення вмісту з кожним користувачем, алгоритми також шукають вміст, який залучає користувачів до подібних уподобань.

Форматування

Ми хочемо підвищити якість вмісту в нашому каналі, який не має візуальних дефектів, таких як відсутні елементи заголовка, відсутні списки, відсутні URL-адреси або неактуальні слова або фрази, які призводять до поганої взаємодії з користувачем. Щоб уникнути обмеженої експозиції вмісту, переконайтеся, що ви виконуєте вказівки з публікації, зокрема:

Довгі блоки неформатованого тексту

Вміст високої якості та без дефектів, наприклад неформатованого тексту, має вищу ймовірність отримання видимості в каналі. Переконайтеся, що він має належну структуру речень і абзаців і кодування під час передавання. Статті без розривів рядків або розривів абзаців не буде підвищено в каналі.

Приклад форматованого тексту: <p>Це абзац.</p> (зверніть увагу на код відкриття та закриття).

Посилання на вихідну статтю

Посилання назад до вихідної статті можуть відображатися лише в нижній частині статті. Дописи, які повертаються до оригіналу в основному тексті, матимуть обмежений доступ.

URL-адреса звичайного тексту

Якщо у вас є посилання на вміст, переконайтеся, що їх відформатовано належним чином. Наприклад, якщо посилання в вмісті мають такий вигляд: https://www.conotoso.com/r/linden-new-york тоді ваш вміст має неправильний формат і може мати обмежену експозицію або бути відповідним чином видалений.

Припустимий формат дати

Для забезпечення актуальності нашого контенту для наших споживачів ми повинні переконатися, що статті, які ми показуємо їх, точно датовані. Дати мають виражатися за допомогою форматів дат RFC 3339 або RFC 822.

Припустимі приклади формату дати:

  • Ср, 04 Жов 2017 15:00:00 +0200
  • 2017-10-04T13:00:00+00:00

Швидкість клацання (CTR)

Показник клацання (CTR) – кількість кліків, поділених на кількість показів, – це одна міра залучення, яка використовується для визначення ранжирування вмісту. На CTR здебільшого впливають елементи вмісту, які відображаються під час просування посилання, зокрема заголовок, заголовок, зображення та абстракція. Машинне навчання оцінює потенціал CTR для кожного фрагмента вмісту.

Вміст із високим показником CTR, як правило, хороший, хоча є також категорія вмісту, який може мати високий показник CTR, але також викликає невдоволення читачів – clickbait. Докладніше про це див. нижче в нашому розділі про негативні сигнали.

Свіжість і своєчасність

Очікується, що вміст каналу новин буде "свіжим" і своєчасним. Тому в середньому новіший вміст займає більше рангу, ніж попередній вміст. Останні в новинах, фінансах або спортивних історіях важливі, тому що ці вертикалі, як правило, мають історії, які швидко старіють. Алгоритми розпізнають інші теми, як правило, більш вічнозелені і дозволяють цьому вмісту бути старшим, визнаючи це. Вміст із неточними опублікованими датами може бути нижчим за ранжируваний вміст.

В середньому, історії про популярні теми, останні новини та новини заголовків займають більш високе місце. Найпопулярніші позиції в каналі часто зарезервовані для провідних новин дня.

Тенденції спостерігаються за кількома зовнішніми джерелами даних як загальнодоступними, так і власними. Система відстежує тенденції в Інтернеті в цілому, а також те, що є трендовим на полотнах Microsoft і пошуку Bing. Ці сигнали об'єднуються та обчислюються, щоб оцінити кожен елемент вмісту за його потенціалом, який буде трендовим. Елементи з більшим потенціалом розташовані вище в каналі.

Бренд-авторитет

Історії від відомих національних або глобальних видавців новин мають більшу вагу, тому що споживачі та видавці так розглядають їх як більш авторитетних і надійних. Однак історії місцевих або менш відомих брендів також є важливими компонентами персоналізованих каналів і часто високо оцінюються через інші сигнали.

Алгоритми поки що не вважають авторитет за темою: наприклад, одні видавці є більш авторитетними в сфері спорту, а інші спеціалізуються на політиці. Це область, які корпорація Майкрософт очікує покращити в майбутніх оновленнях ранжирування.

Від'ємні сигнали та clickbait

Деякий вміст створює кліки, але також викликає невдоволення користувачів, які сприймають заголовок, що вводить в оману (не доставляючи вміст із обіцяним заголовком) або історію нижчої якості. До прикладів належать заголовки, які вводять в оману, перебільшують історію або надмірно шокують чи емоційні. Відомий як clickbait, цей вміст може бути ранжируваний нижче на основі поведінки користувача, яка пропонує незадоволення через дії, такі як високий рівень відмов.

До певних шаблонів належать:

  • Заголовок, який виходить за рамки тизера, особливо з надмірним використанням прислівника "це" (наприклад, Never Drink This on a Plane).
  • Заголовок, який спотворює фактичний вміст статті та/або імпорт, тим самим не відповідає очікуванням читача. Недійсна обіцянка може варіюватися від пропуску активу (наприклад, відео, на який посилається заголовок) або взагалі не стосується основної інформації.

Вміст, який може спричинити незручності

У рамках наших постійних зусиль, спрямованих на покращення якості вмісту та збереження позитивного досвіду для всіх користувачів, MSN застосовує суворіші стандарти до вмісту, який може сприйматися як образливий, графічний або неприйнятний. Повідомлення можуть бути деприоритізовані або видалені, якщо заголовки, зображення або текст тіла включають тривожний або титульний матеріал, який не має ширшої редакційної або соціальної актуальності.

Приклади вмісту, які можуть ініціювати такі сигнали:

  • Докладні зображення тілесних функцій (наприклад, плоскість, екскремент, сечовивідування, спливаюче прищ)
  • Захворювання, що передаються статевим шляхом
  • Непристойні зустрічі (наприклад, зустрічі з секс-працівниками, громадським сексом, громадською оголеністю), де немає більш широкої соціальної актуальності, такої як політичний скандал.
  • Історії про злочини, які включають надмірну деталь (наприклад, специфіку сексуального акту або жахливе вбивство), які виходять за рамки голих фактів
  • Титрування або історії на дорослих (наприклад, явні сексуальні поради) не підходять для загальної аудиторії
  • Вміст, що посилається на сексуальне відхилення та зооіальність
  • Сексуальна поведінка тварин
  • Графічна розкладка (наприклад, м'ясо, заражене магготами)

Цей тип вмісту може знизити довіру читачів і часто позначається як неприйнятний для широкого розповсюдження.

Залежно від рівня важливості, наведений нижче вміст може мати обмежену експозицію або видалити відповідно, що призводить до зниження враження на рівні статті:

  • Знаменитості плітки: Ми зараз обмежуємо експозицію контенту знаменитостей, зосереджуючись на (але не обмежуючись) бійках знаменитостей, сексуальному одязі того, що носять знаменитості, несправностях гардеробу, повсякденній діяльності знаменитостей, питаннях відносин тощо. Цей вміст і надалі відображатиметься на сторінках MSN, однак матимуть доступ лише користувачі, які шукають такий тип вмісту.