MSN 如何对内容进行排名
MSN 发布来自全球数千家发布者的新闻报道、照片库和视频,并在Microsoft产品(包括Microsoft Edge、Microsoft Windows、MSN.com 和 MSN 移动应用)中推广此内容。
每次使用者查看 MSN 源时,它都会使用最新的个性化内容进行刷新。 根据各种信号,算法在编辑监督下选择和排序源中的内容。 此排名内容系统旨在吸引和通知,选择与每个人最相关的故事,同时确保内容及时,新闻价值,高质量,安全的工作和家庭。
每次用户查看新闻源时,这些参数的相对重要性可能会有所不同。 随着我们不断识别和改进信号并试验新功能,算法会不断演变。
本文内容
用户相关性
Microsoft为每个消费者提供个性化的新闻源,以满足每个人对内容的独特兴趣和偏好。 此个性化的核心是将用户首选项与文档理解相匹配的算法。 这些算法旨在为每个用户选择最相关的内容。
随着时间的推移,系统通过两种方法来了解用户的首选项:
- 显式个性化。 该算法遵循用户如何手动配置其设置,包括关注某些主题、喜欢或不喜欢特定内容或指示发布者首选项等操作。
- 隐式个性化。 根据用户的隐私设置,当一个人阅读内容并与Microsoft的产品互动时,将分析故事的模式,以更好地了解用户的偏好。 算法会针对每个用户寻找长期和短期模式,并承认内容兴趣在短期内可能会有所不同,同时表现出不同的长期趋势。 (在此处) 阅读有关Microsoft隐私的详细信息。
机器学习算法促进深入的文档理解,而不仅仅是识别“主题”:系统对每个文档执行分析,以获取基于文本和元数据的见解,并将内容转换为数学模型。
可以将这两个数学模型(用户首选项和文档理解)与每个人最匹配的内容进行比较。
除了直接与每个用户匹配内容外,算法还搜索具有类似偏好的用户参与的内容。
格式设置
我们希望推广源中没有视觉缺陷(如缺少标题元素、缺少列表、缺少 URL 或导致用户体验不佳的不相关的字词/短语)的质量内容。 若要避免让内容看到有限的公开,请确保遵循发布准则,包括以下内容:
未格式化文本的长块
高质量且没有缺陷(如未格式化文本)的内容在源中获取可见性的概率较高。 上传时,请确保它具有正确的句子和段落结构以及编码。 没有任何换行符或换行符的文章将不会在源中推广。
格式化文本的示例: <p>这是一个段落。</p> (记下开始和结束代码) 。
原始文章链接
返回到原始文章的链接只能显示在文章底部。 在文本正文中链接回原始内容的文章将具有有限的访问范围。
纯文本 URL
如果内容中有链接,则需要确保其格式正确。 例如,如果内容中的链接如下所示:https://www.conotoso.com/r/linden-new-york 则表示内容的格式不正确,并且可能具有有限的公开性或相应地删除。
有效日期格式
为了确保我们的内容与我们的消费者相关,我们必须确保我们显示的文章是准确的日期。 日期必须使用 RFC 3339 或 RFC 822 日期格式表示。
有效日期格式示例:
- 星期三, 04 Oct 2017 15:00:00 +0200
- 2017-10-04T08:00:00-05:00
点击率 (CTR)
点击率 (CTR) (点击次数除以展示次数)是用于确定内容排名的参与度指标之一。 CTR 主要受提升链接时显示的内容元素的影响,包括标题/标题、图像和摘要。 机器学习可判断每条内容的 CTR 潜力。
点击率高的内容通常很好,虽然也有一类内容可能具有高点击率,但也引起了读者的不满 - 点击点击。 在有关负信号的部分中,请参阅下面有关此 内容的详细信息。
新鲜度和时间线
新闻源中的内容应是“新鲜”和及时的。 因此,新内容的平均排名高于旧内容。 新闻、金融或体育新闻的最新报道很重要,因为这些垂直行业往往有快龄的故事。 算法确实识别其他主题往往更常青,并允许此内容更旧,并识别这一点。 发布日期不准确的内容的排名可能较低。
趋势和新闻价值
平均而言,有关热门话题、突发新闻和头条新闻的故事排名更高。 源中的顶部位置通常保留为当天的主要新闻价值新闻。
通过监视多个外部数据源(公共数据源和专有数据源)来观察趋势。 系统监视 Internet 上的趋势,以及Microsoft画布和必应搜索上的趋势。 这些信号是组合和平均的,以对每个内容项进行评分,使其具有趋势的潜力。 具有更多潜力的项目在源中排名较高。
品牌权威
来自国内或全球知名新闻出版商的故事份量更大,因为消费者和出版商都认为它们更权威和更可信。 然而,来自本地或不太知名的品牌的故事也是个性化订阅源的重要组成部分,并且由于其他信号,通常排名靠前。
算法尚未按主题考虑权威性:例如,一些出版商在体育领域更权威,而另一些出版商则专门从事政治。 这是一个Microsoft预期在未来排名更新中改进的领域。
负信号和点击bait
某些内容会产生点击,但也会产生用户的不满,这些用户认为标题具有误导性 (没有提供标题承诺的内容) 或低质量的故事。 示例包括误导性、夸大故事或过于令人震惊或情绪化的头条新闻。 通常称为点击bait,根据用户行为(通过高跳出率)来暗示不满的用户行为,此内容可能会排名较低。
特定模式包括:
- 一个标题,超越挑逗,特别是过度使用副词“这个” (例如,从不喝这个在飞机) 。
- 歪曲实际故事内容和/或导入的标题,从而无法满足读者的期望。 违背承诺的范围包括忽略资产 ((如标题) 中引用的视频),或者根本不处理关键信息。
可能导致不适的内容
作为我们不断努力提高内容质量并为所有用户保持积极体验的一部分,MSN 对可能被视为冒犯性、图形或不适当的内容采用更严格的标准。 如果标题、图像或正文文本包括缺乏更广泛的编辑或社会相关性的令人不安或令人不安的材料,则帖子可能会被取消特权或删除。
可能触发这些信号的内容示例包括:
- 身体功能的详细描述 (,例如,扁气,排泄,小便,皮条弹出)
- 性病
- Lewd遇到 (例如,与性工作者会面,公共性行为,公共裸体) 没有更广泛的社会相关性,如政治丑闻。
- 犯罪故事,包括过度的细节 (例如,性行为或可怕的谋杀) 的细节,超出了裸露的事实
- 提提拉或成人主题的故事 (例如,明确的性建议) 不适合一般受众
- 引用性偏差和偏爱的内容
- 动物性行为
- 图形分解 (例如,被ൺ) 虫感染的肉
此类内容可能会降低读者信任,并且通常标记为不适合广泛分发。
根据严重性,以下内容可能会受到限制或相应地删除,从而导致文章级印象减少:
- 名人八卦:我们现在限制对名人内容的曝光,关注 (但不仅限于) 名人打架、名人穿什么、衣柜故障、日常名人活动、关系问题等。但是,此内容仍会显示在 MSN 页面上,只会向寻求此类内容的用户公开。