Как MSN класира съдържанието

MSN публикува истории от новини, галерии със снимки и видеоклипове от хиляди издатели в световен мащаб и популяризира това съдържание в продуктите на Microsoft, включително Microsoft Edge, Microsoft Windows, MSN.com и мобилното приложение MSN.

Всеки път, когато потребителят преглежда канала на MSN, той се обновява с най-новото персонализирано съдържание. На базата на различни сигнали алгоритмите избират и подредят съдържанието в информационния канал с контрол върху редакциите. Тази система за класиране на съдържанието има за цел да ангажира и информира, избирайки истории, които са най-подходящи за всеки човек, като същевременно се гарантира, че съдържанието е навременно, благонадеждно, висококачествено и безопасно за работа и у дома.

Относителната важност на тези параметри може да се променя всеки път, когато даден информационен канал за дискусионни групи се гледа от потребителя. Алгоритмите винаги се развиват, тъй като постоянно идентифицираме и подобряваме сигналите и експериментираме с новите функции.

В тази статия

Релевантност на потребителя

Форматиране

Скорост на щракване (CTR)

Свежест и актуалност

Тенденции и надеждност на новините

Авторитет на марката

Отрицателни сигнали и набор щраквания

Релевантност на потребителя

Microsoft предоставя на всеки потребител персонализиран информационен канал за новини, за да отговори на уникалния набор от интереси и предпочитания за съдържанието на всяко лице. В основата на тази персонализация са алгоритмите, които отговарят на потребителските предпочитания с разбирането на документа. Тези алгоритми са предназначени да избират най-подходящото съдържание за всеки потребител.

Предпочитанията на потребителя се учат от системата с течение на времето чрез два подхода:

  • Изрична персонализация. Алгоритъмът спазва начина, по който потребителите ръчно конфигурират настройките си, включително действия като следване на определени теми, харесване или харесване на определено съдържание или указване на предпочитание за издател.
  • Неявно персонализиране. В съответствие с настройките за поверителност на потребителя, когато човек чете съдържанието и взаимодейства с продуктите на Microsoft, историите се анализират, за да се разберат моделите по-добре предпочитанията на потребителя. Алгоритмите търсят както дългосрочни, така и краткосрочни модели за всеки потребител, признавайки, че интересите на съдържанието може да се различават в краткосрочен план, като същевременно показват различни дългосрочни тенденции. (Прочетете повече за "Поверителност на Microsoft " тук).

Алгоритмите за машинно обучение подтикват към разбиране на документа отвъд простото разпознаване на "теми": Системата извършва анализ на всеки документ, за да получи прозрения въз основа на текст и метаданни и да преобразува съдържанието в математически модел.

Двата математически модела – потребителски предпочитания и разбиране на документа – могат да се сравняват с избиране на съдържание, което е най-близкото съвпадение за всеки човек.

Освен директното съпоставяне на съдържание с всеки потребител, алгоритмите също търсят съдържание, което ангажира потребителите с подобни предпочитания.

Форматиране

Искаме да популяризираме съдържанието на качеството в нашия информационен канал, което няма визуални дефекти, като липсващи елементи на заглавката, липсващи списъци, липсващи URL адреси или без значение думи/фрази, които водят до лоша работа на потребителите. За да избегнете това, съдържанието ви да вижда ограничена експозиция, се уверете, че следвате указанията за публикуване, включително следните:

Дълги блокове от неформатиран текст

Съдържание, което е с високо качество и без дефекти, като например неформатиран текст, има по-голяма вероятност да получи видимост в информационния канал. Уверете се, че има правилното изречение и структура на абзаца и кодиране, когато го качите. Статиите без знаци за нов ред или знаци за нов абзац няма да бъдат повишени в информационния канал.

Пример за форматиран текст: <p>Това е абзац.</p> (Обърнете внимание на кода за отваряне и затваряне).

Връзки към оригиналната статия

Връзките обратно към оригиналната статия могат да се показват само в долната част на статията. Публикациите, които се свързват обратно към оригинала в основния текст, ще имат ограничен достъп.

URL адрес на обикновен текст

Ако имате връзки в съдържанието си, трябва да се уверите, че са форматирани по подходящ начин. Например ако връзките във вашето съдържание изглеждат така: https://www.conotoso.com/r/linden-new-york тогава вашето съдържание не е форматирано правилно и може да е с ограничена експозиция или съответно да е премахнато.

Валиден формат на дата

За да гарантираме, че нашето съдържание е подходящо за нашите потребители, трябва да се уверим, че статиите, които им показваме, са с точна дата. Датите трябва да се изразяват чрез формати за дата RFC 3339 или RFC 822.

Валидни примери за формат на дата:

  • Сд, 04 октомври 2017 г., 15:00:00 +0200
  • 2017-10-04T13:00:00+00:00

Скорост на щракване (CTR)

Скоростта на кликване (CTR) – броят на щракванията, разделени на броя импресии – е една мярка за ангажираността, използвана при определяне на класирането на съдържанието. CTR се влияе предимно от елементите на съдържанието, които се показват при популяризирането на връзката, включително заглавието/заглавието, изображението и резюмето. Машинното обучение оценява възможностите на CTR за всяко съдържание.

Съдържанието с висока CTR като цяло е добро, въпреки че има и категория съдържание, което може да има висока CTR, но също така генерира неудовлетвореност от читателите - clickbait. Вижте повече за това по-долу в раздела за Отрицателни сигнали.

Свежест и актуалност

Съдържанието в новинарския канал се очаква да бъде "ново" и навреме. В резултат на това по-новото съдържание се класира средно по-високо от по-старото съдържание. Последните новини, финанси и спортни истории са важни, защото тези вертикали имат сюжети, които остаряват бързо. Алгоритмите разпознават други теми обикновено са все по-зелени и позволяват на това съдържание да бъде по-старо, осъзнавайки това. Съдържанието с неточни публикувани дати може да бъде класифицирано по-ниско.

Като цяло историите за популярни теми, най-актуалните новини и водещите новини се класират по-високо. Най-важните позиции в информационния канал често са запазени за водещите новини за деня.

Тенденциите се наблюдават чрез наблюдение на множество външни източници на данни – както публични, така и фирмени. Системата следи какво е тенденция в интернет като цяло, както и какво е тенденцията в платната на Microsoft и търсенето в Bing. Тези сигнали са комбинирани и усреднени, за да се оцени всеки елемент със съдържание според потенциала му да бъде тенденция. Елементите с по-голям потенциал се класират на по-високо ниво в информационния канал.

Авторитет на марката

Историите на известни национални или глобални издатели на новини имат по-голяма тежест, тъй като потребителите и издателите ги считат за по-достоверни и надеждни. Историите от местни или по-малко известни марки обаче са важни компоненти на персонализираните информационни канали и често се класифицират високо поради други сигнали.

Алгоритмите все още не отчитат авторитета по тема: например някои издатели са по-достоверни в областта на спорта, докато други са специализирани в политиката. Това е област, която Microsoft очаква да подобри в бъдещите актуализации на класирането.

Отрицателни сигнали и набор щраквания

Част от съдържанието генерира щраквания, но също така генерира неудовлетвореност от потребителите, които считат, че дадено заглавие е подвеждащо (не предоставя обещаното съдържание) или историята за по-ниско качество. Примерите включват заглавия, които са подвеждащи, преувеличават историята или са прекалено шокиращи или емоционални. Известно като "кликни и щраквания", това съдържание може да бъде класифицирано по-ниско въз основа на поведението на потребителя, което предполага неудовлетвореност от действия, като например висока степен на неуспешно доставяне.

Специфичните модели включват:

  • Заглавие, което излиза извън брояча, особено при прекаленото използване на наречията "this" (например Never Drink This on a Plane).
  • Заглавие, което представя погрешно съдържанието на действителния сюжет и/или импортирането, като по този начин не отговаря на очакванията на читателите. Повреденото обещание може да варира от изпускане на актив (например видео, към което има препратка в заглавието) или изобщо да не адресира ключовата информация.

Съдържание, което може да причини дискомфорт

Като част от нашите постоянни усилия за подобряване на качеството на съдържанието и поддържане на положително изживяване за всички потребители, MSN прилага по-строги стандарти към съдържание, което може да се счита за обидно, графично или неподходящо. Публикациите може да бъдат лишени или премахнати, ако заглавията, изображенията или основният текст включват обезпокоителен или титрувален материал, който няма по-широко редакционно или обществено значение.

Примери за съдържание, което може да задейства тези сигнали, включват:

  • Подробни изображения на физически функции (напр. метеоризъм, екскременти, уриниране, пъпка)
  • Полово предавани болести
  • Неудобни срещи (напр. срещи със сексуални работници, публичен секс, публична голота), при които няма по-широко обществено значение, като политически скандал.
  • Криминални истории, които включват прекомерно детайлност (например спецификата на сексуално убийство или ужасно убийство), надхвърлящи голите факти
  • Титилизиращи или тематични за възрастни истории (напр. явни сексуални съвети), които не са подходящи за широка аудитория
  • Съдържание, препращащо към сексуално отклонение и посвещение
  • Сексуално поведение на животните
  • Графично разлагане (например месо, разархивирано с маготеки)

Този тип съдържание може да намали доверието на читателя и често е маркирано като неподходящо за широко разпространение.

В зависимост от степента на сериозност следното съдържание може съответно да е с ограничена експозиция или да е премахнато, което да доведе до намаляване на впечатлението на ниво статия:

  • Клюкарства за знаменитости: Сега ограничаваме излагането на знаменитости със съдържание, фокусирано върху (но не само) битките на знаменитости, сексуалното носене на известни личности, неправилното функциониране на гардероба, ежедневните знаменитости, проблемите с отношенията и др. Това съдържание обаче все още ще се показва на страниците на MSN само на потребители, които търсят този тип съдържание.