Cách MSN xếp hạng nội dung

MSN phát hành các câu chuyện tin tức, phòng trưng bày ảnh và video từ hàng ngàn nhà xuất bản trên toàn cầu và quảng bá nội dung này trên các sản phẩm của Microsoft, bao gồm Microsoft Edge, Microsoft Windows, MSN.com và ứng dụng dành cho thiết bị di động MSN.

Mỗi lần người tiêu dùng xem nguồn cấp dữ liệu MSN, nguồn cấp dữ liệu sẽ làm mới với nội dung được cá nhân hóa mới nhất. Dựa trên các tín hiệu khác nhau, thuật toán chọn và sắp xếp nội dung trong nguồn cấp dữ liệu với sự giám sát biên tập. Hệ thống nội dung xếp hạng này được thiết kế để thu hút và thông báo, chọn những câu chuyện phù hợp nhất với từng người, đồng thời đảm bảo nội dung kịp thời, đáng tin cậy, chất lượng cao và an toàn cho công việc và gia đình.

Tầm quan trọng tương đối của các tham số này có thể thay đổi mỗi lần người dùng xem một nguồn cấp tin tức. Các thuật toán luôn phát triển khi chúng tôi liên tục xác định và cải thiện tín hiệu và thử nghiệm với các tính năng mới.

Trong bài viết này

Sự liên quan của người dùng

Định dạng

Tỷ lệ click-through (CTR)

Độ tươi và kịp thời

Xu hướng và tính đáng tin cậy

Thẩm quyền thương hiệu

Tín hiệu âm và clickbait

Sự liên quan của người dùng

Microsoft cung cấp cho mọi người tiêu dùng một nguồn cấp tin tức được cá nhân hóa để đáp ứng bộ sở thích và tùy chọn duy nhất của mỗi người về nội dung. Cốt lõi của việc cá nhân hóa này là các thuật toán phù hợp với tùy chọn của người dùng với hiểu tài liệu. Các thuật toán này được thiết kế để chọn nội dung liên quan nhất cho từng người dùng.

Tùy chọn của người dùng được hệ thống học theo thời gian thông qua hai phương pháp tiếp cận:

  • Cá nhân hóa rõ ràng. Thuật toán này tôn trọng cách người dùng đặt cấu hình cài đặt theo cách thủ công, bao gồm các hành động như theo dõi các chủ đề nhất định, thích hoặc không thích nội dung cụ thể hoặc cho biết tùy chọn của nhà phát hành.
  • Cá nhân hóa ngầm. Để tuân thủ cài đặt về quyền riêng tư của người dùng, khi một người đọc nội dung và tương tác với các sản phẩm của Microsoft, các câu chuyện được phân tích theo các mẫu hình để hiểu rõ hơn tùy chọn của người dùng. Các thuật toán tìm cả các mẫu hình dài hạn và ngắn hạn cho mỗi người dùng, thừa nhận rằng lợi ích nội dung có thể khác nhau trong ngắn hạn, trong khi thể hiện xu hướng dài hạn khác nhau. (Đọc thêm về Quyền riêng tư của Microsoft tại đây).

Thuật toán học máy thúc đẩy sự hiểu biết sâu về tài liệu, ngoài việc chỉ nhận ra 'chủ đề': Hệ thống thực hiện phân tích trên từng tài liệu để có được thông tin chuyên sâu dựa trên văn bản và siêu dữ liệu và chuyển đổi nội dung thành một mô hình toán học.

Hai mô hình toán học – tùy chọn người dùng và hiểu tài liệu - có thể được so sánh với việc chọn nội dung phù hợp nhất với mỗi người.

Ngoài nội dung khớp trực tiếp với mỗi người dùng, thuật toán còn tìm kiếm nội dung thu hút người dùng với các tùy chọn tương tự.

Định dạng

Chúng tôi muốn quảng bá nội dung chất lượng trong nguồn cấp dữ liệu của mình mà không có lỗi trực quan như thiếu các yếu tố tiêu đề, thiếu listicles, URL bị thiếu hoặc các từ/cụm từ không liên quan dẫn đến trải nghiệm người dùng kém. Để tránh cho nội dung của bạn bị phơi nhiễm giới hạn, hãy đảm bảo rằng bạn đang làm theo hướng dẫn phát hành bao gồm những điều sau:

Các khối văn bản dài không được định dạng

Nội dung chất lượng cao và không có khiếm khuyết như văn bản không định dạng có xác suất hiển thị cao hơn trong nguồn cấp dữ liệu. Hãy đảm bảo câu và cấu trúc đoạn văn thích hợp cũng như mã hóa khi bạn tải lên. Các bài viết không có bất kỳ ngắt dòng hoặc ngắt đoạn văn nào sẽ không được tăng cấp trong nguồn cấp.

Ví dụ về văn bản được định dạng: <p>Đây là một đoạn văn.</p> (Lưu ý mã mở và đóng).

Liên kết bài viết gốc

Các liên kết quay lại bài viết gốc chỉ có thể xuất hiện ở cuối bài viết. Các bài đăng liên kết trở lại bản gốc trong phần nội dung chính của văn bản sẽ có phạm vi tiếp cận hạn chế.

URL Văn bản thuần

Nếu bạn có các nối kết trong nội dung của mình, bạn cần đảm bảo chúng được định dạng phù hợp. Ví dụ: nếu các liên kết trong nội dung của bạn trông như thế này: https://www.conotoso.com/r/linden-new-york thì nội dung của bạn không được định dạng đúng và có thể bị hạn chế phơi sáng hoặc bị loại bỏ theo đó.

Định dạng ngày hợp lệ

Để đảm bảo nội dung của chúng tôi có liên quan đến người tiêu dùng, chúng tôi phải đảm bảo rằng các bài viết chúng tôi hiển thị cho họ được cập nhật chính xác. Ngày phải được thể hiện bằng cách sử dụng định dạng ngày RFC 3339 hoặc RFC 822.

Ví dụ về định dạng ngày hợp lệ:

  • Thứ Năm, 04/10/2017 15:00:00 +0200
  • 2017-10-04T13:00:00+00:00

Tỷ lệ click-through (CTR)

Tỷ lệ nhấp (CTR) — số lần nhấp chia cho số lần hiển thị — là một thước đo mức độ tương tác được sử dụng để xác định xếp hạng nội dung. CTR chịu ảnh hưởng chủ yếu bởi các thành phần của nội dung được hiển thị khi thúc đẩy liên kết, bao gồm tiêu đề/tiêu đề, hình ảnh và trừu tượng. Machine learning đánh giá tiềm năng của CTR đối với từng phần nội dung.

Nội dung có CTR cao nói chung là tốt, mặc dù cũng có một danh mục nội dung có thể có CTR cao nhưng cũng tạo ra sự không hài lòng từ người đọc - clickbait. Xem thêm về điều này bên dưới trong mục của chúng tôi về Tín hiệu âm.

Độ tươi và kịp thời

Nội dung trong nguồn cấp tin tức dự kiến sẽ "mới" và kịp thời. Do đó, nội dung mới xếp hạng cao hơn nội dung cũ hơn, trung bình. Tin tức, tài chính hoặc thể thao mới nhất rất quan trọng vì những đường thẳng đứng này có xu hướng có những câu chuyện về tuổi tác nhanh chóng. Các thuật toán nhận ra các chủ đề khác có xu hướng được thường xanh hơn và cho phép nội dung này được cũ hơn, nhận ra điều đó. Nội dung có ngày công bố không chính xác có thể được xếp hạng thấp hơn.

Trung bình, các câu chuyện về các chủ đề thịnh hành, tin tức nổi bật và tin tức nổi bật được xếp hạng cao hơn. Các vị trí hàng đầu trong nguồn cấp dữ liệu thường được dành riêng cho các tin tức đáng tin cậy hàng đầu trong ngày.

Xu hướng được quan sát bằng cách giám sát nhiều nguồn dữ liệu bên ngoài, cả công cộng và độc quyền. Hệ thống giám sát những nội dung thịnh hành trên internet nói chung cũng như những nội dung thịnh hành trên các bức vẽ Microsoft và tìm kiếm trên Bing. Các tín hiệu này được kết hợp và tính giá trung bình để đánh giá từng mục nội dung về khả năng thịnh hành. Các mục có nhiều tiềm năng hơn được xếp hạng cao hơn trong nguồn cấp dữ liệu.

Thẩm quyền thương hiệu

Câu chuyện từ các nhà xuất bản tin tức quốc gia hoặc toàn cầu nổi tiếng có trọng lượng nặng hơn, bởi vì người tiêu dùng và nhà xuất bản đều xem họ là có thẩm quyền và đáng tin cậy hơn. Tuy nhiên, câu chuyện từ các thương hiệu địa phương hoặc ít nổi tiếng cũng là thành phần quan trọng của nguồn cấp dữ liệu được cá nhân hóa và thường được xếp hạng cao do các tín hiệu khác.

Các thuật toán chưa xem xét thẩm quyền theo chủ đề: ví dụ, một số nhà xuất bản có thẩm quyền hơn trong lĩnh vực thể thao, trong khi những nhà xuất bản khác chuyên về chính trị. Đây là một lĩnh vực mà Microsoft kỳ vọng sẽ cải thiện trong các bản cập nhật xếp hạng trong tương lai.

Tín hiệu âm và clickbait

Một số nội dung tạo ra các nhấp chuột, nhưng cũng tạo ra sự không hài lòng từ những người dùng cảm thấy một tiêu đề gây hiểu lầm (không cung cấp nội dung tiêu đề đã hứa) hoặc câu chuyện có chất lượng thấp hơn. Ví dụ bao gồm tiêu đề gây hiểu nhầm, làm tăng mức câu chuyện hoặc gây sốc hay cảm xúc quá mức. Được gọi là clickbait, nội dung này có thể được xếp hạng thấp hơn dựa trên hành vi của người dùng cho thấy sự không hài lòng thông qua các hành động như tỷ lệ thoát cao.

Các mẫu cụ thể bao gồm:

  • Một tiêu đề mà đi xa hơn một teaser, đặc biệt là với việc sử dụng quá mức của trạng từ "này" (ví dụ, Không bao giờ uống điều này trên máy bay).
  • Tiêu đề trình bày sai nội dung câu chuyện thực tế và/hoặc nhập, do đó không đáp ứng mong đợi của người đọc. Lời hứa bị hỏng có thể có từ việc bỏ qua một nội dung (chẳng hạn như video được tham chiếu trong tiêu đề) hoặc không giải quyết thông tin chính.

Nội dung có thể gây khó chịu

Là một phần trong nỗ lực không ngừng nhằm cải thiện chất lượng nội dung và duy trì trải nghiệm tích cực cho tất cả người dùng, MSN áp dụng các tiêu chuẩn nghiêm ngặt hơn cho nội dung có thể được coi là xúc phạm, đồ họa hoặc không phù hợp. Các bài đăng có thể bị tước đoạt hoặc loại bỏ nếu tiêu đề, hình ảnh hoặc văn bản nội dung bao gồm tài liệu gây phiền nhiễu hoặc tạo chuẩn bị thiếu sự biên tập rộng hơn hoặc liên quan đến xã hội.

Ví dụ về nội dung có thể kích hoạt các tín hiệu này bao gồm:

  • Mô tả chi tiết về các chức năng của cơ thể (ví dụ: đầy hơi, bài tiết, đi tiểu, mụn nước)
  • Các bệnh lây truyền qua đường tình dục
  • Những cuộc gặp gỡ với dâm đãng (ví dụ: các cuộc họp với người bán dâm, giới tính công cộng, ảnh khỏa thân nơi công cộng) mà không có sự liên quan xã hội rộng hơn như một vụ bê bối chính trị.
  • Những câu chuyện tội phạm bao gồm chi tiết quá mức (ví dụ, chi tiết cụ thể của một hành động tình dục hoặc một vụ giết người khủng khiêu dâm) vượt quá những sự thật trần tục
  • Tạo ra các câu chuyện có chủ đề người lớn (ví dụ: lời khuyên khiêu dâm rõ ràng) không phù hợp với khán giả nói chung
  • Nội dung đề cập đến độ lệch và quan hệ tình dục
  • Hành vi tình dục động vật
  • Phân hủy đồ họa (ví dụ: thịt bị nhiễm giòi)

Loại nội dung này có thể làm giảm sự tin tưởng của người đọc và thường bị gắn cờ là không phù hợp để phân phối rộng rãi.

Tùy thuộc vào mức độ nghiêm trọng, nội dung sau đây có thể bị hạn chế phơi sáng hoặc xóa theo đó, dẫn đến giảm ấn tượng ở cấp bài viết:

  • Chuyện đồn đại người nổi tiếng: Chúng tôi hiện đang hạn chế việc tiếp xúc với nội dung người nổi tiếng tập trung vào (nhưng không giới hạn) các cuộc chiến người nổi tiếng, tình dục những người nổi tiếng đang mặc gì, trục trặc tủ quần áo, các hoạt động người nổi tiếng hàng ngày, các vấn đề quan hệ, v.v. Tuy nhiên, nội dung này sẽ vẫn xuất hiện trên các trang MSN, sẽ chỉ hiển thị cho những người dùng tìm kiếm loại nội dung này.