Kaip MSN klasifikuoja turinį
MSN visame pasaulyje skelbia naujienų istorijas, nuotraukų galerijas ir vaizdo įrašus iš tūkstančių leidėjų ir reklamuoja šį turinį "Microsoft" produktuose, įskaitant "Microsoft Edge", "Microsoft Windows", MSN.com ir MSN mobiliųjų įrenginių programėlę.
Kiekvieną kartą, kai vartotojas peržiūri MSN informacijos santrauką, ji atnaujinama naudojant naujausią personalizuotą turinį. Atsižvelgiant į įvairius signalus, algoritmai parenka ir išdėsto turinį informacijos santraukoje su redakcijos priežiūra. Ši reitingavimo turinio sistema yra skirta įtraukti ir informuoti, pasirenkant istorijas, kurios yra aktualiausios kiekvienam asmeniui, taip pat užtikrinant, kad turinys yra savalaikis, naujienų, aukštos kokybės ir saugus darbui ir namams.
Santykinė šių parametrų svarba gali skirtis kiekvieną kartą, kai vartotojas peržiūri naujienų informacijos santrauką. Algoritmai nuolat tobulinami, kai nuolat identifikuojame ir tobuliname signalus ir eksperimentuojame su naujomis funkcijomis.
Šiame straipsnyje:
Neigiami signalai ir "clickbait"
Vartotojo tinkamumas
"Microsoft" kiekvienam vartotojui pateikia asmeniniams poreikiams pritaikytą naujienų informacijos santrauką, kad atitiktų unikalius kiekvieno asmens pomėgius ir turinio nuostatas. Šio suasmeninimo pagrindas yra algoritmai, kurie atitinka vartotojo nuostatas ir dokumento supratimą. Šie algoritmai skirti pasirinkti tinkamiausią kiekvieno vartotojo turinį.
Vartotojo nuostatos per tam tikrą laiką sistemos išmoksta dviem būdais:
- Tiesioginis pritaikymas asmeniniams poreikiams. Algoritmas atsižvelgia į tai, kaip vartotojai rankiniu būdu konfigūruoja savo parametrus, įskaitant veiksmus, pvz., tam tikrų temų sekimą, konkretaus turinio skonį ar nepatinkantį turinį arba leidėjo nuostatų nurodymą.
- Netiesioginis pritaikymas asmeniniams poreikiams. Laikantis vartotojo privatumo parametrų, kai asmuo skaito turinį ir bendradarbiauja su "Microsoft" produktais, istorijos analizuojamos pagal modelius, kad būtų galima geriau suprasti vartotojo nuostatas. Algoritmai ieško tiek ilgalaikių, tiek trumpalaikių modelių kiekvienam vartotojui, pripažindami, kad turinio pomėgiai gali skirtis per trumpą laiką, tuo pačiu metu esant skirtingoms ilgalaikėms tendencijoms. (Daugiau apie "Microsoft" privatumą skaitykite čia).
Mašininio mokymosi algoritmai padeda geriau suprasti dokumentus vien tik atpažįstant "temas": sistema atlieka analizę su kiekvienu dokumentu, kad gautų įžvalgas, pagrįstas tekstu ir metaduomenimis, ir konvertuos turinį į matematinį modelį.
Du matematiniai modeliai – vartotojo nuostatos ir dokumento supratimas – gali būti lyginami su pasirinktu turiniu, kuris yra artimiausias kiekvieno asmens atitikmuo.
Be tiesiogiai atitinkančio turinio su kiekvienu vartotoju, algoritmai taip pat ieško turinio, kuris įtraukia vartotojus į panašias nuostatas.
Formatavimas
Norime reklamuoti kokybišką turinį savo informacijos santraukoje, kurioje nėra vaizdinių defektų, pvz., trūkstamų antraštės elementų, trūkstamų sąrašų, trūkstamų URL arba netinkamų žodžių / frazių, dėl kurių prasta vartotojo patirtis. Norėdami išvengti riboto turinio poveikio, įsitikinkite, kad atitinkate publikavimo rekomendacijas, įskaitant:
Ilgi neformatuoto teksto blokai
Turinys, kuris yra aukštos kokybės ir neturi defektų, pvz., neformatuotas tekstas, turi didesnę tikimybę, kad informacijos santrauka bus matoma. Įkeldami įsitikinkite, kad jų sakinių ir pastraipų struktūra yra tinkama ir koduojama. Straipsniai be jokių eilučių lūžių ar pastraipų lūžių nebus reklamuojami informacijos santraukoje.
Suformatuoto teksto pavyzdys: <p>Tai pastraipa.</p> (atkreipkite dėmesį į atidarymo ir uždarymo kodą).
Original article links
Saitai su pradiniu straipsniu gali būti rodomi tik straipsnio apačioje. Įrašai, kurie susieja su originalu pagrindinėje teksto dalyje, bus pasiekiami ribotai.
Paprastojo teksto URL
Jei turinyje yra saitų, turite įsitikinti, kad jie tinkamai suformatuoti. Pavyzdžiui, jei jūsų turinio saitai atrodo taip: https://www.conotoso.com/r/linden-new-york tada jūsų turinys netinkamai suformatuotas ir gali būti apribotas poveikis arba jis gali būti atitinkamai pašalintas.
Leistinas datos formatas
Siekdami užtikrinti, kad mūsų turinys būtų aktualus mūsų vartotojams, turime užtikrinti, kad straipsniai, kuriuos jiems rodome, būtų tiksliai surašyti. Datos turi būti išreikštos naudojant RFC 3339 arba RFC 822 datos formatus.
Leistino datos formato pavyzdžiai:
- 2017 m. spalio 04 d. 15:00:00 +0200
- 2017-10-04T13:00:00+00:00
Paspaudimų rodiklis (PR)
Paspaudimų rodiklis (PR) – paspaudimų skaičius, padalytas iš parodymų skaičiaus – yra vienas įtraukimo matas, naudojamas nustatant turinio reitingavimą. PR pirmiausiai veikia turinio elementai, kurie rodomi reklamuojant saitą, įskaitant pavadinimą / antraštę, vaizdą ir abstraktį. Mašininis mokymas vertina kiekvieno turinio CTR potencialą.
Turinys su aukštu PR paprastai yra geras, nors yra ir turinio kategorija, kuri gali turėti aukštą PR, bet taip pat sukelia nepasitenkinimą iš skaitytojų - Clickbait. Daugiau apie tai žr. mūsų skyriuje apie neigiamus signalus.
Šviežumas ir savalaikiškumas
Tikimasi, kad naujienų informacijos santraukos turinys bus "naujas" ir laiku. Todėl naujesnis turinys vidutiniškai užima aukštesnį už senesnį turinį. Naujienų, finansų ar sporto istorijos naujausios yra svarbios, nes šie segmentai turi polinkį greitai turėti istorijas apie tą amžių. Algoritmai atpažįsta kitas temas, kurios paprastai būna visžalios ir leidžia naudoti šį turinį senesniems, tai atpažįstant. Turinys su netikslumais publikuotomis datomis gali būti klasifikuoti žemiau.
Tendencijos ir naujumas
Vidutiniškai istorijos apie populiariausias temas, karščiausios naujienos ir svarbiausios naujienos yra labiau klasifikuojamos. Populiariausios informacijos santraukos vietos dažnai yra rezervuotos svarbiausioms naujienose.
Tendencijos stebimos stebint kelis išorinių duomenų šaltinius , tiek viešuosius, tiek nuosavybės teisių šaltinius. Sistema stebi, kas populiariausia internete apskritai, taip pat tai, kas vyksta "Microsoft" drobėse ir "Bing" ieškoje. Šie signalai derinami ir apskaičiuojami pagal kiekvieno turinio elemento tendencijas. Elementai, turintys daugiau potencialių galimybių, yra klasifikuojami aukščiau informacijos santraukoje.
Prekės ženklo institucija
Istorijas iš gerai žinomų nacionalinių ar pasaulio naujienų leidėjai turi sunkesnį svorį, nes vartotojai ir leidėjai tiek peržiūrėti juos kaip patikimas ir patikimas. Tačiau istorijos iš vietinių ar mažiau žinomų prekių ženklų taip pat yra svarbūs asmeniniams poreikiams pritaikytų informacijos santraukų komponentai ir dažnai klasifikuojami labai dėl kitų signalų.
Algoritmai dar nelaiko autoritetą pagal temą: pavyzdžiui, kai kurie leidėjai yra patikimiau sporto srityje, o kiti specializuojasi politikoje. Tai sritis, kurios "Microsoft" tikisi pagerinti būsimuose reitingavimo naujinimuose.
Neigiami signalai ir "clickbait"
Kai kuris turinys generuoja paspaudimus, bet taip pat sukelia nepasitenkinimą iš vartotojų, kurie suvokia, kad antraštė yra klaidinanti (nepristatant turinio antraštė pažadėjo) arba prastesnės kokybės istorija. Pavyzdžiai apima antraštes, kurios yra klaidinanti, perdėta istorija arba yra pernelyg šokiruojančios ar emocinės. Populiariai žinomas kaip "Clickbait", šis turinys gali būti klasifikuotas mažesnis, atsižvelgiant į vartotojo elgseną, kuri rodo nepasitenkinimą tokiais veiksmais, kaip aukštas nušokimo dažnis.
Konkretūs modeliai:
- Antraštė, kuri išeina už teaser, ypač su prieveiksmiu "this" pernelyg daug (pvz., Niekada negerkite Tai plokštumoje).
- Antraštė, kurioje pateikiamas klaidingas pasakojimo turinys ir (arba) importavimas, todėl nepavyksta pasiekti skaitytojų lūkesčių. Sugadintas pažadas gali skirtis nuo turto (pvz., antraštėje nurodyto vaizdo įrašo) arba apskritai nekreipti dėmesio į svarbiausią informaciją.
Turinys, kuris gali sukelti diskomfortą
Stengdamosi gerinti turinio kokybę ir užtikrinti teigiamą patirtį visiems vartotojams, MSN taiko griežtesnius standartus turiniui, kuris gali būti suvokiamas kaip įžeidžiantis, grafinis ar netinkamas. Įrašai gali būti atimami arba pašalinami, jei antraštėse, vaizduose ar teksto tekste yra nerimą keliančios arba paisančios medžiagos, kuri neturi platesnės redakcijos ar svarbos visuomenei.
Turinio, kuris gali sukelti šiuos signalus, pavyzdžiai:
- Išsamus kūno funkcijų vaizdas (pvz., vidurių pūtimas, sužadinimas, šlapinimasis, spuogas popping)
- Lytiškai plintančios ligos
- Nepadorūs susitikimai (pvz., susitikimai su sekso darbuotojais, viešoji lytis, visuomenės nuogumas), kai nėra platesnės svarbos visuomenei, pvz., politinio skandalo.
- Nusikalstamumo istorijos, kuriose pateikiama pernelyg išsami informacija (pvz., seksualinio veiksmo ar žiauraus nužudymo specifiškumas), kuri apima ne tik neįklijuojamus faktus
- Speniuojamos ar suaugusiųjų teminės istorijos (pvz., tikslios seksualinės konsultacijos) netinka plačiajai auditorijai
- Turinys, nurodantis seksualinį nuokrypį ir bestialumą
- Seksualinis gyvūnų elgesys
- Grafinis skaidymas (pvz., raugo užkratas mėsa)
Šio tipo turinys gali sumažinti skaitytojo pasitikėjimą ir dažnai yra pažymimas kaip netinkamas platinti plačiai.
Atsižvelgiant į svarbą, toliau nurodytas turinys gali būti apribotas arba atitinkamai pašalintas, todėl sumažėja straipsnio lygio įspūdis:
- Garsenybių gossip: Mes dabar apriboti poveikio garsenybių turinio, sutelkiant dėmesį į (bet neapsiribojant) garsenybių kovoja, sexualizing ką įžymybės dėvi, spinta blogai, kasdien garsenybių veikla, santykių klausimus, ir tt Tačiau šis turinys vis tiek bus rodomas MSN puslapiuose tik vartotojams, ieškantiems šio tipo turinio.