Jak služba MSN řadí obsah
MSN publikuje příspěvky, fotogalerie a videa od tisíců vydavatelů po celém světě a propaguje tento obsah napříč produkty Microsoftu, včetně Microsoft Edge, Microsoft Windows, MSN.com a mobilní aplikace MSN.
Pokaždé, když si uživatel zobrazí informační kanál MSN, aktualizuje se nejnovějším přizpůsobeným obsahem. Na základě různých signálů algoritmy vybírají a objednává obsah v informačním kanálu s redakčním dohledem. Tento systém obsahu hodnocení je navržen tak, aby se zapojil a informoval, vybral si příběhy, které jsou pro každého člověka nejrelevantní, a zároveň zajistil, že obsah bude včasný, aktuální, vysoce kvalitní a bezpečný pro práci i domov.
Relativní důležitost těchto parametrů se může při každém zobrazení informačního kanálu uživatelem lišit. Algoritmy se neustále vyvíjejí, protože neustále identifikujeme a vylepšujeme signály a experimentujeme s novými funkcemi.
V tomto článku
Relevance uživatele
Microsoft poskytuje každému uživateli přizpůsobený informační kanál, který vyhovuje jedinečné sadě zájmů a preferencí obsahu jednotlivých uživatelů. Jádrem tohoto přizpůsobení jsou algoritmy, které odpovídají uživatelským preferencím s porozuměním dokumentům. Tyto algoritmy jsou navržené tak, aby pro každého uživatele vybraly nejrelevantní obsah.
Předvolby uživatele se postupně učí systém dvěma přístupy:
- Explicitní přizpůsobení. Algoritmus respektuje, jak uživatelé ručně konfigurují svá nastavení, včetně akcí, jako je sledování určitých témat, lajkování nebo nelíbí se jim konkrétní obsah nebo označení předvolby vydavatele.
- Implicitní přizpůsobení. V souladu s nastavením ochrany osobních údajů uživatele se při čtení obsahu a zapojení do produktů Microsoftu analyzují scénáře, aby lépe porozuměla preferencím uživatele. Algoritmy hledají dlouhodobé i krátkodobé vzory pro každého uživatele, přičemž uznávají, že zájmy obsahu se můžou v krátkodobém horizontu lišit a současně vykazují různé dlouhodobé sklony. (Další informace o ochraně osobních údajů společnosti Microsoft najdete tady.)
Algoritmy strojového učení posouvají hluboké porozumění dokumentům nad rámec pouhého rozpoznávání témat: Systém provádí analýzu každého dokumentu, aby získal přehledy založené na textu a metadatech, a převádí obsah na matematický model.
Dva matematické modely – uživatelské předvolby a porozumění dokumentům – je možné porovnat s vybraným obsahem, který je pro každou osobu nejblíže.
Kromě přímého porovnávání obsahu s každým uživatelem algoritmy také hledají obsah, který oslovuje uživatele s podobnými předvolbami.
Formátování
Chceme propagovat kvalitní obsah v našem informačním kanálu, který nemá žádné vizuální vady, jako jsou chybějící prvky záhlaví, chybějící seznamy, chybějící adresy URL nebo irelevantní slova nebo fráze, které mají za následek špatné uživatelské prostředí. Pokud chcete zabránit tomu, aby se váš obsah zobrazoval jen v omezeném množství, ujistěte se, že se řídíte pokyny pro publikování, včetně následujících:
Dlouhé bloky neformátovaného textu
Obsah, který je vysoce kvalitní a bez vad, jako je neformátovaný text, má vyšší pravděpodobnost získání viditelnosti v informačním kanálu. Při nahrávání se ujistěte, že má správnou strukturu vět a odstavců a zakódujte ho. Články bez konců řádků nebo konce odstavců nebudou v informačním kanálu povýšeny.
Příklad formátovaného textu: <p>Toto je odstavec.</p> (Všimněte si počátečního a koncového kódu).
Odkazy na původní články
Odkazy zpět na původní článek se můžou zobrazit jenom v dolní části článku. Příspěvky, které odkazují zpět na originál v hlavním textu textu, budou mít omezený dosah.
Adresa URL ve formátu prostého textu
Pokud máte v obsahu odkazy, musíte se ujistit, že jsou správně naformátované. Pokud například odkazy ve vašem obsahu vypadají takto: https://www.conotoso.com/r/linden-new-york pak váš obsah není správně naformátovaný a může mít omezenou expozici nebo může být odpovídajícím způsobem odebrán.
Platný formát data
Abychom zajistili, že je obsah pro naše zákazníky relevantní, musíme zajistit, aby články, které zobrazujeme, byly přesně datované. Kalendářní data musí být vyjádřena pomocí formátu RFC 3339 nebo RFC 822.
Příklady platného formátu data:
- Wed, 04 Oct 2017 15:00:00 +0200
- 2017-10-04T13:00:00+00:00
Míra prokliku (CTR)
Míra prokliku (CTR) – počet kliknutí vydělený počtem zobrazení – je jednou mírou zapojení používanou při určování pořadí obsahu. CTR je primárně ovlivněn prvky obsahu, které se zobrazují při propagaci odkazu, včetně názvu/nadpisu, obrázku a abstraktu. Strojové učení posuzuje potenciál CTR pro každou část obsahu.
Obsah s vysokou CTR je obecně dobrý, i když existuje také kategorie obsahu, který může mít vysoké CTR, ale také generuje neuspokojení ze čtenářů – clickbait. Další informace najdete níže v naší části věnované negativním signálům.
Aktuálnost a včasnost
Očekává se, že obsah v informačním kanálu bude "aktuální" a včasný. V důsledku toho je novější obsah v průměru vyšší než starší obsah. Nejnovější zprávy, finance nebo sportovní příběhy jsou důležité, protože tyto vertikály mívají příběhy, které rychle stárnou. Algoritmy rozpoznají jiná témata, mají tendenci být stálezelená a umožňují, aby tento obsah byl starší, což si uvědomují. Obsah s nepřesnými daty publikování může být zařazen níže.
Trendy a novinová hodnost
V průměru jsou příspěvky o populárních tématech, nejnovějších zprávách a hlavních zprávách seřazeny na vyšší pozici. Nejvyšší pozice v informačním kanálu jsou často vyhrazeny pro hlavní novinky dne.
Trendy jsou pozorovány monitorováním několika externích zdrojů dat, veřejných i proprietárních. Systém monitoruje, co je na internetu populární, a také to, co je populární na plátnech Microsoftu a vyhledávání Bingu. Tyto signály se kombinují a zprůměrovávají, aby se každá položka obsahu ohodnocela podle toho, jak může být populární. Položky s větším potenciálem jsou v informačním kanálu seřazené výše.
Autorita značky
Příběhy od známých národních nebo globálních vydavatelů zpráv mají větší váhu, protože spotřebitelé i vydavatelé je považují za autoritativnější a důvěryhodnější. Příběhy od místních nebo méně známých značek jsou však také důležitou součástí přizpůsobených informačních kanálů a jsou často vysoce hodnocené kvůli jiným signálům.
Algoritmy zatím nebere v úvahu autoritu podle tématu: například někteří vydavatelé jsou autoritativnější v oblasti sportu, zatímco jiní se specializují na politiku. Toto je oblast, od které Společnost Microsoft očekává zlepšení v budoucích aktualizacích hodnocení.
Negativní signály a clickbait
Některé obsahy generují kliknutí, ale také nespokojí uživatele, kteří považují nadpis za zavádějící (nedoručuje obsah, který nadpis slíbil) nebo jako méně kvalitní. Mezi příklady patří nadpisy, které jsou zavádějící, přehánějí příběh nebo jsou příliš šokující nebo emocionální. Tento obsah, který se často označuje jako clickbait, může být řazen níže na základě chování uživatelů, které naznačuje nespokojení prostřednictvím akcí, jako je vysoká míra odrazování.
Mezi konkrétní vzory patří:
- Nadpis, který přesahuje upoutávku, zejména s nadužívání příslovce "this" (např. Nikdy nepijte tohle v letadle).
- Nadpis, který nesprávně představuje skutečný obsah příběhu a/nebo import, a tím nesplňuje očekávání čtenáře. Porušení slibu může být v rozsahu od vynechání prostředku (jako je video, na které se odkazuje v nadpisu) nebo se klíčové informace vůbec neřeší.
Obsah, který může způsobit nepohodlí
V rámci našeho trvalého úsilí o zlepšení kvality obsahu a zachování pozitivního prostředí pro všechny uživatele uplatňuje MSN přísnější standardy na obsah, který může být vnímán jako urážlivý, grafický nebo nevhodný. Příspěvky mohou být vyřazeny nebo odebrány, pokud nadpisy, obrázky nebo základní text obsahují znepokojující nebo stitilující materiál, který nemá širší redakční nebo společenský význam.
Mezi příklady obsahu, který může aktivovat tyto signály, patří:
- Podrobné znázornění tělesných funkcí (např. plynatost, exkrementace, močení, pupínek)
- Sexuálně přenosné nemoci
- Lewd setkání (např. setkání se sexuálními pracovníky, veřejný sex, veřejná nahota), kde neexistuje širší společenský význam, jako je politický skandál.
- Zločinné příběhy, které obsahují nadměrné podrobnosti (například specifika sexuálního činu nebo hrůzné vraždy), které jdou nad rámec holých faktů
- Příběhy s motivy nebo příběhy s motivem pro dospělé (např. explicitní sexuální rady) nejsou vhodné pro obecné publikum.
- Obsah odkazující na sexuální deviace a bestialitu
- Sexuální chování zvířat
- Grafická rozklad (např. maso zamořené červy)
Tento typ obsahu může snížit důvěryhodnost čtenáře a je často označen jako nevhodný pro širokou distribuci.
V závislosti na závažnosti může být následující obsah vystavený omezenému nebo odpovídajícím způsobem odebrán, což vede ke snížení zobrazení na úrovni článku:
- Pomluvy o celebritách: Nyní omezujeme odhalení obsahu celebrit se zaměřením na (ale ne výhradně) souboje celebrit, sexualizaci toho, co celebrity mají na sobě, poruchy šatníku, každodenní činnosti celebrit, problémy se vztahy atd. Tento obsah se bude i nadále zobrazovat na stránkách MSN, ale bude zpřístupněn pouze uživatelům, kteří hledají tento typ obsahu.