Kako MSN rangira sadržaj

MSN objavljuje vijesti, galerije fotografija i videozapise tisuća izdavača globalno i promiče taj sadržaj u svim Microsoftovim proizvodima, uključujući Microsoft Edge, Microsoft Windows, MSN.com i mobilnu aplikaciju MSN.

Svaki put kada korisnik pregleda MSN sažetak sadržaja, osvježava se najnovijim personaliziranim sadržajem. Na temelju različitih signala algoritmi odabiru i poredaju sadržaj u sažetku sadržaja s uredničkim nadzorom. Ovaj sustav sadržaja rangiranja osmišljen je za angažiranje i informiranje, odabir priča koje su naj relevantnije za svaku osobu, a ujedno se osigurava da je sadržaj na vrijeme, vrijedan vijesti, visoke kvalitete i siguran za posao i dom.

Relativna važnost tih parametara može se razlikovati svaki put kada korisnik pregledava sažetak sadržaja vijesti. Algoritmi se uvijek razvijaju jer neprekidno identificiramo i poboljšavamo signale te eksperimentiramo s novim značajkama.

Sadržaj članka

Relevantnost korisnika

Oblikovanje

Stopa klika (CTR)

Svježina i pravovremenost

Trendovi i novosti

Brand authority

Negativni signali i klik

Relevantnost korisnika

Microsoft svakom korisniku isporučuje personalizirani sažetak sadržaja vijesti koji zadovoljava jedinstveni skup interesa i preferencija za sadržaj svake osobe. U jezgri ove personalizacije su algoritmi koji se podudaraju s korisničkim preferencama s razumijevanjem dokumenta. Ti su algoritmi osmišljeni za odabir naj relevantnijih sadržaja za svakog korisnika.

Korisnikove preference sustav s vremenom uči putem dva pristupa:

  • Eksplicitna personalizacija. Algoritam poštuje način na koji korisnici ručno konfiguriraju svoje postavke, uključujući akcije kao što su praćenje određenih tema, označavanje određenog sadržaja ili ne sviđanje određenog sadržaja ili označavanje preferenci izdavača.
  • Implicitna personalizacija. U skladu s korisnikovim postavkama privatnosti, kada osoba čita sadržaj i komunicira s Microsoftovim proizvodima, priče se analiziraju radi uzoraka radi boljeg razumijevanja korisnikove preferencije. Algoritmi za svakog korisnika imaju dugoročne i kratkoročne obrasce, priznajući da se interesi za sadržaj mogu razlikovati u kratkom razdoblju, a imaju različite dugoročne tendencije. (Dodatne informacije o Microsoftovoj zaštiti privatnosti potražite ovdje).

Algoritmi strojnog učenja temelje se na dubokom razumijevanju dokumenata, a ne samo prepoznavanju "tema": Sustav provodi analizu na svakom dokumentu da bi steći uvide na temelju teksta i metapodataka i pretvara sadržaj u matematički model.

Dva matematička modela – korisničke preferencije i razumijevanje dokumenata – mogu se usporediti s odabirom sadržaja koji je najbliže podudaranju za svaku osobu.

Osim izravnog podudaranja sadržaja sa svakim korisnikom, algoritmi također pretražuju sadržaj koji angažira korisnike sa sličnim preferencama.

Oblikovanje

Želimo promovirati sadržaj kvalitete u sažetku sadržaja koji nema vizualnih mana kao što su elementi zaglavlja koji nedostaju, popisi koji nedostaju, URL-ovi koji nedostaju ili relevantne riječi/izrazi koji rezultiraju lošim korisničkim iskustvom. Da biste izbjegli ograničenu izloženost vašem sadržaju, slijedite smjernice za objavljivanje, uključujući sljedeće:

Dugi blokovi neoblibličnog teksta

Sadržaj visoke kvalitete i bez oštećenja, kao što je neoblibli oblikovani tekst, ima veću vjerojatnost vidljivosti u sažetku sadržaja. Prilikom prijenosa provjerite ima li pravilnu strukturu rečenica i odlomaka te kodiranje. Članci bez prijeloma redaka ili prijeloma odlomaka neće biti povećani u sažetku sadržaja.

Primjer oblikovanog teksta: <p>Ovo je odlomak.</p> (Obratite pozornost na kod otvaranja i zatvaranja).

Veze na izvorni članak

Veze na izvorni članak mogu se pojaviti samo pri dnu članka. Objave koje se ponovno vezuju na izvornik u glavnom tijelu teksta bit će ograničene.

URL običnog teksta

Ako imate veze u sadržaju, morate biti sigurni da su odgovarajuće oblikovane. Ako, primjerice, veze u vašem sadržaju izgledaju ovako: https://www.conotoso.com/r/linden-new-york onda vaš sadržaj nije pravilno oblikovan i može imati ograničenu izloženost ili će biti uklonjen u skladu s tim.

Valjani oblik datuma

Da bismo osigurali da je naš sadržaj relevantan za naše potrošače, moramo osigurati da su članci s kojima se prikazuju točno datumi. Datumi se moraju izraziti pomoću oblika datuma RFC 3339 ili RFC 822.

Valjani primjeri oblika datuma:

  • Wed, 04 Lis 2017 15:00:00 +0200
  • 2017-10-04T13:00:00+00:00

Stopa klika (CTR)

Stopa klika (CTR) – broj klikova podijeljenih brojem pojavljivanja – jedna je mjera angažmana koja se koristi za određivanje rangiranja sadržaja. Na CTR prvenstveno utječu elementi sadržaja koji se prikazuju prilikom promicanja veze, uključujući naslov/naslov, sliku i apstraktno. Strojno učenje sudi potencijalu CTR-a za svaki dio sadržaja.

Sadržaj s visokim CTR-om općenito je dobar, iako postoji i kategorija sadržaja koja može imati visoki CTR, ali i generira nezadovoljstvo čitatelja – clickbait. Dodatne informacije potražite u odjeljku Negativni signali u nastavku.

Svježina i pravovremenost

Očekuje se da će sadržaj u sažetku sadržaja vijesti biti "svjež" i pravomoжan. Zbog toga novije sadržaje u prosjeku rangi više od starijeg sadržaja. Najnovije vijesti, financije i sportske priče važne su jer te okomite značajke imaju priče koje brzo dobi. Algoritmi prepoznaju druge teme obično su zimzelenije i dopuštaju da ovaj sadržaj bude stariji, prepoznajući to. Sadržaj s netočnim objavljenim datumima može biti rangiran niže.

U prosjeku su priče o popularne teme, najnovije vijesti i glavne vijesti rangirane više. Glavni položaji u sažetku sadržaja često su rezervirani za vodeće vijesti koje su danas vrijedne novosti.

Trendovi se promatraju praćenjem više vanjskih izvora podataka, i javnih i vlasničkih. Sustav nadzire što je u trendu na internetu u cjelini, kao i što je trending na Microsoftovim platnima i Bing pretraživanja. Ti se signali objedinjuju i prosječno ocijenite svaku stavku sadržaja prema njezinoj mogućnosti trendinga. Stavke s više potencijala rangirane su više u sažetku sadržaja.

Brand authority

Priče poznatih nacionalnih ili globalnih izdavača vijesti imaju težu težinu jer ih i potrošači i izdavači smatraju mjerodavnijima i pouzdanijima. Međutim, priče lokalnih ili manje poznatih robnih marki također su važne komponente personaliziranih sažetaka sadržaja i često su rangirane visoko zbog drugih signala.

Algoritmi još ne smatraju autoritet prema temi: na primjer, neki izdavači su autoritativniji u području sporta, dok su drugi specijalizirani za politiku. Ovo je područje koje Microsoft očekuje da će poboljšati u budućim ažuriranjima rangiranja.

Negativni signali i klik

Neki sadržaji generiraju klikove, ali i generiraju nezadovoljstvo od korisnika koji smatraju da naslov vara (ne isporučuje sadržaj koji je naslov obećao) ili priču o nižoj kvaliteti. Primjeri obuhvaćaju naslove koji su zavaravajući, preuveličavaju priču ili su pretjerano šokantni ili emocionalni. Popularno poznat pod nazivom clickbait, ovaj sadržaj može biti rangiran niže na temelju ponašanja korisnika koje sugerira nezadovoljstvo akcijama kao što je visoka stopa odskakivanja.

Specifični uzorci uključuju:

  • Naslov koji nadilazi zadirkujete, osobito s prenagnjenim prilogom "ovo" (npr. Never Drink This on a Plane).
  • Naslov koji pogrešno predstavlja stvarni sadržaj priče i/ili uvoz, čime se ne uspijeva zadovoljiti očekivanja čitatelja. Neispravno obećanje može se nalaziti u rasponu od izostavljanja imovine (kao što je videozapis na koji se upućuje u naslovu) ili ne rješavajući ključne informacije.

Sadržaj koji može uzrokovati nelagodu

Kao dio naših stalnih napora za poboljšanje kvalitete sadržaja i održavanje pozitivnog iskustva za sve korisnike, MSN primjenjuje strože standarde na sadržaj koji se može percipiraju kao uvredljivi, grafički ili neprikladni. Objave se mogu zastarijeti ili ukloniti ako naslovi, slike ili tekst tijela uključuju uznemirujući ili titilizirajući materijal koji nema širšu uredniju ili društvenu relevantnost.

Primjeri sadržaja koji mogu aktivirati te signale obuhvaćaju sljedeće:

  • Detaljni prikazi tjelesnih funkcija (npr. flatulencija, izmet, urinacija, bubuljica iskakanje)
  • Spolno prenosive bolesti
  • Neukusni susreti (npr. sastanci sa seksualnim radnicima, javni seks, javna golotinja) u kojima nema šire društvene važnosti kao što je politički skandal.
  • Priče o zločinima koje uključuju prekomjerne detalje (na primjer, pojedinosti o seksualnom činu ili jezivo ubojstvo) koje nadilazi golo činjenice
  • Titillating ili adult-themed stories (npr. explicit sexual advice) not appropriate for general audiences
  • Sadržaj koji se odnosi na seksualno odstupanje i bestijelalnost
  • Seksualno ponašanje životinja
  • Grafička razgradnja (npr. meso zaraženo crvima)

Ta vrsta sadržaja može smanjiti pouzdanost čitača i često je označena kao neprikladna za široku distribuciju.

Ovisno o ozbiljnosti problema, sljedeći sadržaj može imati ograničenu izloženost ili ukloniti u skladu s tim, što dovodi do smanjenja pojavljivanja na razini članka:

  • Celebrity tračevi: Mi smo sada ograničava izlaganje celebrity sadržaja s naglaskom na (ali ne ograničavajući se na) celebrity borbe, seksualnost ono što slavne osobe nose, ormar kvarova, iz dana u dan celebrity aktivnosti, odnose pitanja, itd. Ovaj će se sadržaj i dalje prikazivati na MSN stranicama, no bit će izložen samo korisnicima koji traže tu vrstu sadržaja.