Kaip MSN klasifikuoja turinį

MSN skelbia naujienas, nuotraukų galerijas ir vaizdo įrašus iš tūkstančių leidėjų visame pasaulyje ir reklamuoja šį turinį "„Microsoft“" produktuose, įskaitant "Microsoft Edge", "„Microsoft“ Windows", "MSN.com" ir MSN mobiliųjų įrenginių programėlę.

Kiekvieną kartą, kai vartotojas peržiūri MSN informacijos santrauką, ji atnaujinama naujausiu asmeniniams poreikiams pritaikytu turiniu. Remdamiesi įvairiais signalais, algoritmai parenka ir tvarko turinį sklaidos kanale su redakcine priežiūra. Ši reitingavimo turinio sistema skirta įtraukti ir informuoti, parenkant kiekvienam asmeniui aktualiausias istorijas, taip pat užtikrinant, kad turinys būtų savalaikis, vertas naujienų, kokybiškas ir saugus darbui ir namams.

Šių parametrų santykinė svarba gali skirtis kiekvieną kartą, kai vartotojas peržiūri naujienų informacijos santrauką. Algoritmai nuolat tobulėja, nes mes nuolat identifikuojame ir tobuliname signalus bei eksperimentuojame su naujomis funkcijomis.

Šiame straipsnyje:

Tinkamumas vartotojams

Formatavimas

Paspaudimų rodiklis (PR)

Naujumas ir savalaikiškumas

Tendencijos ir naujienų vertumas

Prekės ženklo autoritetas

Neigiami signalai ir "clickbait"

Tinkamumas vartotojams

"„Microsoft“" pateikia kiekvienam vartotojui asmeniniams poreikiams pritaikytą naujienų informacijos santrauką, atitinkančią kiekvieno asmens unikalius pomėgius ir turinio nuostatas. Šio personalizavimo pagrindas yra algoritmai, kurie atitinka vartotojo pageidavimus ir dokumentų supratimą. Šie algoritmai skirti parinkti kiekvienam vartotojui tinkamiausią turinį.

Vartotojo nuostatas sistema išmoksta laikui bėgant, taikydama du metodus:

  • Aiškus personalizavimas. Algoritmas atsižvelgia į tai, kaip vartotojai rankiniu būdu konfigūruoja savo nustatymus, įskaitant veiksmus, pvz., sekimą tam tikromis temomis, konkretaus turinio pamėgimą ar nepatinka arba leidėjo pageidavimų nurodymą.
  • Netiesioginis personalizavimas. Atsižvelgiant į vartotojo privatumo parametrus, kai asmuo skaito turinį ir įsitraukia į "„Microsoft“" produktus, istorijos analizuojamos siekiant geriau suprasti vartotojo nuostatas. Algoritmai ieško tiek ilgalaikių, tiek trumpalaikių kiekvieno vartotojo modelių, pripažįstant, kad turinio interesai trumpuoju laikotarpiu gali skirtis, o ilgalaikės tendencijos skiriasi. (Daugiau apie "„Microsoft“" privatumą skaitykite čia).

Mašininio mokymosi algoritmai padeda geriau suprasti dokumentus ne tik pripažįstant "temas": sistema atlieka kiekvieno dokumento analizę, kad gautų įžvalgų pagal tekstą ir metaduomenis, ir paverčia turinį matematiniu modeliu.

Du matematiniai modeliai – vartotojo nuostatos ir dokumento supratimas – gali būti lyginami pasirenkant turinį, kuris labiausiai atitinka kiekvieną asmenį.

Algoritmai ne tik tiesiogiai suderina turinį su kiekvienu vartotoju, bet ir ieško turinio, kuris įtraukia panašių pageidavimų vartotojus.

Formatavimas

Norime reklamuoti kokybišką turinį savo sklaidos kanale, kuriame nėra vizualinių defektų, pvz., trūkstamų antraštės elementų, sąrašų, trūkstamų URL ar nesvarbių žodžių / frazių, dėl kurių naudotojo patirtis būtų prasta. Kad jūsų turinys nebūtų matomas ribotai, įsitikinkite, kad laikotės publikavimo gairių, įskaitant šias:

Ilgi nesuformatuoto teksto blokai

Aukštos kokybės turinys, neturintis defektų, pvz., nesuformatuotas tekstas, turi didesnę tikimybę būti matomas informacijos santraukoje. Kai įkeliate, įsitikinkite, kad jo sakinių ir pastraipų struktūra ir kodavimas yra tinkami. Straipsniai be eilučių ar pastraipų lūžių nebus reklamuojami informacijos santraukoje.

Formatuoto teksto pavyzdys: <p>Tai pastraipa.</p> (Atkreipkite dėmesį į atidarymo ir uždarymo kodą).

Originalaus straipsnio nuorodos

Nuorodos į originalų straipsnį gali būti rodomos tik straipsnio apačioje. Įrašai, kurie nukreipia į originalą pagrindinėje teksto dalyje, bus ribotai pasiekiami.

Paprastojo teksto URL

Jei jūsų turinyje yra saitų, turite įsitikinti, kad jie tinkamai suformatuoti. Pavyzdžiui, jei jūsų turinyje esantys saitai atrodo taip: https://www.contoso.com/r/linden-new-york jūsų turinys yra netinkamai suformatuotas ir gali būti ribotai matomas arba atitinkamai pašalintas.

Leistinas datos formatas

Siekdami užtikrinti, kad mūsų turinys būtų aktualus mūsų vartotojams, turime įsitikinti, kad straipsniai, kuriuos jiems rodome, yra tiksliai datuoti. Datos turi būti išreikštos RFC 3339 arba RFC 822 datų formatais.

Galiojančių datos formatų pavyzdžiai:

  • Wed, 04 Oct 2017 15:00:00 +0200
  • 2017-10-04T13:00:00+00:00

Paspaudimų rodiklis (PR)

Paspaudimų rodiklis (PR) – paspaudimų skaičius, padalytas iš parodymų skaičiaus – yra vienas iš įsitraukimo rodiklių, naudojamų nustatant turinio reitingą. PR pirmiausia įtakos turi turinio elementai, rodomi reklamuojant nuorodą, įskaitant pavadinimą / antraštę, vaizdą ir santrauką. Mašininis mokymasis įvertina kiekvieno turinio PR potencialą.

Turinys su dideliu PR paprastai yra geras, nors yra ir turinio, kuris gali turėti aukštą PR, bet taip pat sukelia skaitytojų nepasitenkinimą - "clickbait". Daugiau apie tai skaitykite toliau mūsų skyriuje apie neigiamus signalus.

Naujumas ir savalaikiškumas

Tikimasi, kad naujienų informacijos santraukos turinys bus "šviežias" ir pasirodys laiku. Todėl naujesnis turinys vidutiniškai užima aukštesnę vietą nei senesnis turinys. Naujausios naujienos, finansų ar sporto istorijos yra svarbios, nes šios vertikalės paprastai turi istorijų, kurios greitai sensta. Algoritmai atpažįsta, kad kitos temos paprastai yra amžinai žalios ir leidžia šiam turiniui būti senesniam, tai pripažįstant. Turinys su netiksliomis publikuotomis datomis gali būti reitinguojamas žemiau.

Vidutiniškai istorijos apie populiariausias temas, naujausias naujienas ir pagrindines naujienas yra reitinguojamos aukščiau. Aukščiausios pozicijos sklaidos kanale dažnai rezervuojamos svarbiausioms dienos naujienoms.

Tendencijos stebimos stebint kelis išorinius duomenų šaltinius, tiek viešuosius, tiek patentuotus. Sistema stebi, kas yra tendencijos internete apskritai, taip pat kas yra tendencijos "„Microsoft“" drobėse ir "Bing" paieškoje. Šie signalai derinami ir skaičiuojami pagal vidurkį, kad būtų įvertintas kiekvienas turinio elementas pagal jo potencialą būti tendencingu. Elementai, turintys daugiau potencialo, sklaidos kanale užima aukštesnę vietą.

Prekės ženklo autoritetas

Žinomų nacionalinių ar pasaulinių naujienų leidėjų istorijos turi didesnį svorį, nes vartotojai ir leidėjai jas laiko autoritetingesniais ir patikimesniais. Tačiau vietinių ar mažiau žinomų prekių ženklų istorijos taip pat yra svarbūs personalizuotų sklaidos kanalų komponentai ir dažnai yra aukštai vertinami dėl kitų signalų.

Algoritmai dar neatsižvelgia į autoritetą pagal temą: pavyzdžiui, kai kurie leidėjai yra autoritetingesni sporto srityje, o kiti specializuojasi politikoje. Tai sritis, kurią "„Microsoft“" tikisi patobulinti būsimuose reitingavimų naujinimuose.

Neigiami signalai ir "clickbait"

Tam tikras turinys generuoja paspaudimus, bet taip pat sukelia naudotojų, kurie mano, kad antraštė yra klaidinanti (nepateikia žadėto antraštės turinio) arba prastesnės kokybės istorija, nepasitenkinimą. Pavyzdžiui, antraštės yra klaidinančios, perdėtos istorijos arba pernelyg šokiruojančios ar emocingos. Šis turinys, populiariai žinomas kaip "clickbait", gali būti reitinguojamas žemiau, atsižvelgiant į naudotojų elgesį, kuris rodo nepasitenkinimą tokiais veiksmais kaip didelis atmetimo rodiklis.

Specifiniai modeliai apima:

  • Antraštė, kuri peržengia anonsą, ypač kai per daug vartojamas prieveiksmis "tai" (pvz., Niekada negerkite to lėktuve).
  • Antraštė, kuri klaidingai pateikia tikrąjį istorijos turinį ir (arba) importą, todėl neatitinka skaitytojų lūkesčių. Sulaužytas pažadas gali būti praleidžiamas išteklius (pvz., vaizdo įrašas, nurodytas antraštėje) arba visai nekreipiamas dėmesys į pagrindinę informaciją.

Turinys, galintis sukelti nepatogumų

Nuolat siekdama gerinti turinio kokybę ir užtikrinti teigiamą patirtį visiems vartotojams, MSN taiko griežtesnius standartus turiniui, kuris gali būti suvokiamas kaip įžeidžiantis, atviras arba netinkamas. Skelbimams gali būti panaikintas prioritetas arba jie gali būti pašalinti, jei antraštėse, vaizduose ar pagrindiniame tekste yra nerimą keliančios ar jaudinančios medžiagos, kuri neturi platesnės redakcinės ar visuomeninės svarbos.

Toliau pateikti turinio, galinčio sukelti šiuos signalus, pavyzdžiai:

  • Išsamus kūno funkcijų vaizdavimas (pvz., vidurių pūtimas, ekskrementai, šlapinimasis, spuogų iššokimas)
  • Lytiškai plintančios ligos
  • Nepadorūs susitikimai (pvz., susitikimai su sekso darbuotojais, viešas seksas, viešos nuogybės), kai nėra platesnės visuomeninės reikšmės, pavyzdžiui, politinis skandalas.
  • Kriminalinės istorijos, kuriose yra pernelyg daug detalių (pavyzdžiui, seksualinio akto ar kraupios žmogžudystės specifika), kurios peržengia faktus
  • Titiliuojančios ar suaugusiesiems skirtos istorijos (pvz., atviri seksualiniai patarimai) netinka plačiajai auditorijai
  • Turinys, kuriame nurodomas seksualinis nukrypimas ir gyvuliškumas
  • Gyvūnų seksualinis elgesys
  • Grafinis skilimas (pvz., mėsa, užkrėsta lervomis)

Šio tipo turinys gali sumažinti skaitytojų pasitikėjimą ir dažnai pažymimas kaip netinkamas plačiai platinti.

Atsižvelgiant į svarbą, toliau nurodytas turinys gali būti atitinkamai ribotai matomas arba pašalintas, todėl parodymų straipsnio lygiu sumažėjimas.

  • Įžymybių apkalbos: Dabar ribojame įžymybių turinio atskleidimą, daugiausia dėmesio skirdami įžymybių kovoms (bet tuo neapsiribojant), įžymybių dėvėjimo seksualizavimui, drabužių spintos gedimams, kasdienei įžymybių veiklai, santykių problemoms ir kt. Šis turinys vis tiek bus rodomas MSN puslapiuose, tačiau bus rodomas tik vartotojams, ieškantiems tokio tipo turinio.