마지막 업데이트: 2024년 10월
투명도 메모란?
AI 시스템에는 기술뿐만 아니라 기술을 사용할 사용자, 영향을 받을 사용자 및 배포되는 환경이 포함됩니다. Microsoft의 투명성 노트는 Copilot의 AI 기술이 작동하는 방식, 시스템의 성능 및 동작에 영향을 주는 선택 사항, 전체 시스템에 대한 사고의 중요성을 이해하여 Copilot 사용자가 자신의 경험을 제어하고 안전하고 안전한 제품을 제공하기 위해 수행하는 단계를 이해할 수 있도록 돕기 위한 것입니다.
Microsoft의 투명성 참고 사항은 AI 원칙을 실천하기 위한 Microsoft의 광범위한 노력의 일환입니다. 자세한 내용은 Microsoft AI 원칙을 참조하세요.
Microsoft Copilot 기본 사항
소개
Copilot는 상황이나 토픽에 관계없이 다양한 질문에 답변하는 사용자를 지원할 준비를 하면서 사용자에게 원하는 정보를 제공하는 데 도움이 되는 AI 기반 환경입니다. 새로 고친 Copilot는 기본 정보 검색 쿼리에 응답하는 것 이상의 작업을 완료할 때 사용자에게 보다 사전 지원을 제공하기 위해 콘텐츠를 생성하는 데 중점을 둡니다. AI가 어떻게 사람들이 배우고, 발견하고, 더 창의적으로 만들 수 있는 잠재력을 가지고 있는지에 대한 이해가 커지고 있으며, 이로 인해 다른 유형의 제품을 빌드해야 했습니다. 새로운 Copilot 환경은 더 직관적인 방식으로 사용자 요구를 더 잘 해결하기 위해 개방형 동적인 새로운 유형의 환경이 되고자 합니다.
Microsoft는 책임 있는 AI에 대한 우리의 노력을 진지하게 생각합니다. 업데이트된 Copilot 환경은 Microsoft의 AI 원칙, Microsoft의 책임 있는 AI Standard 따라 개발되었으며 Microsoft의 책임 있는 AI 사무실, 엔지니어링 팀, Microsoft Research 및 Aether를 비롯한 회사 전반의 책임 있는 AI 전문가와 협력하여 개발되었습니다. Microsoft에서 책임 있는 AI에 대해 자세히 알아볼 수 있습니다.
이 문서에서는 Copilot에 대한 책임 있는 AI에 대한 접근 방식을 설명합니다. 릴리스에 앞서 Microsoft는 Microsoft의 최신 방법을 활용하여 시스템의 잠재적 위험과 오용을 매핑, 측정 및 관리하고 사용자에게 이점을 확보했습니다. Copilot를 계속 발전시키면서 책임 있는 AI 노력에 대해서도 계속해서 배우고 개선해오고 있습니다. 이 문서는 진화하는 프로세스와 방법을 전달하기 위해 주기적으로 업데이트됩니다.
주요 용어
분류자 데이터를 레이블이 지정된 클래스 또는 정보 범주로 정렬하는 데 도움이 되는 기계 학습 모델입니다. 업데이트된 Copilot 환경에서 분류자를 사용하는 한 가지 방법은 사용자가 제출하거나 시스템에서 생성한 잠재적으로 유해한 콘텐츠를 감지하여 해당 콘텐츠의 생성을 완화하고 시스템의 오용 또는 남용을 완화하는 것입니다.
접지 사용자가 정보를 검색하는 특정 대화의 경우 Copilot는 웹 검색 결과에 근거합니다. 즉, Copilot는 웹의 상위 콘텐츠에 대한 응답을 중심으로 생성된 텍스트 응답에 따라 하이퍼링크된 인용을 제공합니다. 현재 음성 모드의 사용자 프롬프트는 웹 검색을 트리거하지 않으므로 응답에 인용이 포함되지 않습니다.
LLM(큰 언어 모델) 이 컨텍스트의 LLM(큰 언어 모델)은 대량의 텍스트 데이터를 학습하여 순서대로 단어를 예측하는 AI 모델입니다. LLM은 텍스트 생성, 요약, 번역, 분류 등과 같은 다양한 작업을 수행할 수 있습니다.
완화 Copilot 내에서 AI 기능을 사용하여 발생할 수 있는 잠재적 위험을 줄이기 위해 설계된 메서드 또는 방법의 조합입니다.
MMM(다중 모달 모델) MMM(다중 모달 모델)은 텍스트, 이미지 또는 오디오와 같은 다양한 유형의 데이터에 대해 학습되는 AI 모델입니다. 이러한 모델은 텍스트 작성, 이미지 설명, 음성 인식 및 다양한 유형의 데이터에서 정보 찾기와 같은 다양한 작업을 수행할 수 있습니다.
프롬프트 사용자가 Copilot 내의 AI 기능과 상호 작용하기 위해 Copilot에 보내는 텍스트, 이미지 및/또는 오디오 형식의 입력입니다.
레드 팀 전문가가 시스템의 제한 사항과 취약성을 평가하고 계획된 완화의 효과를 테스트하는 데 사용하는 기술입니다. 레드 팀 테스트에는 잠재적 위험을 식별하기 위해 양성 및 적대적 가상 사용자를 모두 채택하는 테스터가 포함되며 체계적인 위험 측정과는 다릅니다.
응답 프롬프트에 대한 응답으로 또는 사용자와 주고 받는 텍스트, 이미지 또는 오디오입니다. "응답"의 동의어로는 "완료", "생성" 및 "답변"이 포함됩니다.
SLM(소형 언어 모델) 이 컨텍스트의 작은 언어 모델(SLLM)은 대형 언어 모델에 비해 더 작고 집중적인 양의 데이터를 학습하는 AI 모델입니다. 크기가 작더라도 SLM은 텍스트 생성, 요약, 번역 및 분류와 같은 다양한 작업을 수행할 수 있습니다. LLM의 광범위한 기능과 일치하지 않을 수 있지만 SLLM은 종종 리소스 효율이 높으며 특정 대상 애플리케이션에 매우 효과적일 수 있습니다.
시스템 메시지 시스템 메시지("metaprompt"라고도 함)는 시스템의 동작을 안내하는 역할을 하는 프로그램입니다. 시스템 메시지의 일부는 시스템 동작을 Microsoft AI 원칙 및 사용자 기대치에 맞게 조정하는 데 도움이 됩니다. 예를 들어 시스템 메시지에는 "정보를 제공하지 않거나 신체적, 정서적 또는 재정적 피해를 줄 수 있는 콘텐츠를 만들지 마십시오"와 같은 줄이 포함될 수 있습니다.
기능
시스템 동작
Copilot를 통해 다양한 작업을 수행하는 사용자를 도울 수 있는 매력적인 환경을 위해 사용자에게 보다 개인화된 AI 환경을 제공하는 혁신적인 접근 방식을 개발했습니다. 이 혁신적인 접근 방식은 Microsoft의 언어 모델, DALL-E, OpenAI의 딥 러닝 모델과 같은 다양한 고급 기술을 활용하여 자연어 설명에서 디지털 이미지를 생성하고 OpenAI의 다중 모달 모델(예: GPT-4o, o1)을 생성합니다. 우리는 향상된 Copilot 환경을 제공하는 사용자 지정된 기능 및 행동 세트를 개발하기 위해 공개 출시 전에 새로운 Copilot 경험을 기반으로하는 모델에 대한 안전 기술의 구현에 노력했습니다. 업데이트된 Copilot에서 사용자는 자연어 텍스트 또는 음성으로 프롬프트를 보낼 수 있습니다. 응답은 텍스트 형식의 채팅 응답(필요에 따라 웹 콘텐츠에 대한 기존 링크 포함) 및 이미지(프롬프트의 일부로 이미지 요청이 수행된 경우)와 같은 여러 가지 형식으로 사용자에게 표시됩니다. 사용자가 Copilot 음성 모드 내에서 자연어 음성으로 프롬프트를 보내면 오디오 응답을 받게 됩니다.
사용자가 Copilot에 프롬프트를 입력하면 유해하거나 부적절한 콘텐츠를 필터링하는 데 도움이 되는 프롬프트, 대화 기록 및 시스템 메시지가 여러 입력 분류자를 통해 전송됩니다. 이는 모델 성능을 개선하고 사용자가 안전하지 않을 수 있는 방식으로 모델을 프롬프트하려고 시도할 수 있는 상황을 완화하는 데 도움이 되는 중요한 첫 번째 단계입니다. 프롬프트가 입력 분류자를 통과하면 SLM으로 전송되어 요청에 웹의 접지 데이터가 필요한지 여부와 요청에 응답해야 하는 언어 모델을 결정합니다. 모든 모델은 사용자의 프롬프트 및 최근 대화 기록을 사용하여 응답을 생성하여 요청을 컨텍스트화하고, 응답을 Microsoft AI 원칙 및 사용자 기대치에 맞게 조정하는 시스템 메시지이며, 적절한 경우 검색 결과와 응답을 웹의 기존 상위 콘텐츠에 대한 기본 응답에 맞춥니다.
응답은 텍스트 형식의 채팅 응답, 웹 콘텐츠에 대한 기존 링크, 이미지 및 오디오 응답과 같은 여러 가지 형식으로 사용자에게 표시됩니다. 응답이 텍스트 형식으로 제공되고 응답이 웹의 데이터에 접지되는 경우 출력에는 텍스트 아래에 나열된 하이퍼링크 인용이 포함되어 사용자가 응답을 접지하는 데 사용된 웹 사이트에 액세스하고 해당 항목에 대해 자세히 알아볼 수 있습니다.
Copilot는 또한 사용자가 새로운 이야기, 시, 노래 가사 및 이미지를 만들 수 있도록 도와줍니다. Copilot가 창의적인 콘텐츠를 생성하려는 사용자 의도(예: "나에게 쓰기 ..."로 시작하는 사용자 프롬프트)를 감지하면 시스템은 대부분의 경우 사용자의 프롬프트에 응답하는 콘텐츠를 생성합니다. 마찬가지로 Copilot가 이미지를 생성하려는 사용자 의도(예: "그리기..."로 시작하는 사용자 프롬프트)를 감지하면 Copilot는 대부분의 경우 사용자의 프롬프트에 응답하는 이미지를 생성합니다. Copilot는 사용자 프롬프트에 문제가 있는 콘텐츠가 발생할 수 있는 특정 용어가 포함된 경우 창의적인 콘텐츠로 응답하지 않을 수 있습니다.
MSA(Microsoft 계정)를 사용하는 사용자는 이제 Copilot Pro 구독할 수 있습니다. 이 옵션은 성능 가속화, 장시간 Copilot Voice 기능 사용, 경우에 따라 새로운 실험적 기능에 대한 액세스 등 향상된 환경을 제공합니다. Copilot Pro 현재 제한된 수의 국가에서 사용할 수 있으며 곧 더 많은 시장에서 Copilot Pro 사용할 수 있도록 할 계획입니다.
의도된 안전 동작
Copilot의 목표는 사용자에게 도움이 되는 것입니다. 다른 Microsoft 생성 AI 제품 및 서비스의 모범 사례를 활용하여 Copilot가 문제가 있는 콘텐츠를 생성하지 못하도록 제한하고 안전하고 긍정적인 사용자 환경의 가능성을 높이는 것을 목표로 합니다. 위험을 완화하기 위한 조치를 취하지만 Copilot 뒤에 있는 것과 같은 생성 AI 모델은 확률적이며 실수를 할 수 있습니다. 즉, 완화가 때때로 유해한 사용자 프롬프트 또는 AI 생성 응답을 차단하지 못할 수 있습니다. Copilot를 사용하는 동안 유해하거나 예기치 않은 콘텐츠가 발생하는 경우 계속해서 환경을 개선할 수 있도록 피드백을 제공하여 알려주세요.
사용 사례
의도한 용도
Copilot는 상황 또는 토픽에 관계없이 다양한 질문에 답변하는 사용자를 지원하기 위한 것입니다. 사용자는 텍스트, 이미지 및 오디오 입력을 사용하여 Copilot와 상호 작용할 수 있습니다. 여기서 상호 작용은 AI 시스템과의 자연스러운 대화처럼 느껴지기 위한 것입니다. 또한 사용자가 텍스트를 통해 Copilot와 상호 작용하여 Copilot가 더 정확한 답변을 생성하기 위해 더 많은 정보가 필요할 수 있는 topics 대한 특정 정보를 검색하는 경우, 이 환경은 사용자를 관련 검색 결과와 연결하고, 웹 전반에서 결과를 검토하고, 사용자가 찾고 있는 정보를 요약하기 위한 것입니다. Copilot에서 사용자는 다음을 수행할 수 있습니다.
-
텍스트를 통해 채팅할 때 실시간 정보를 요약합니다. 사용자가 텍스트를 통해 Copilot와 상호 작용할 때 시스템은 추가 정보가 필요한 경우 웹 검색을 수행하고 상위 웹 검색 결과를 사용하여 사용자에게 표시할 정보의 요약을 생성합니다. 이러한 요약에는 사용자가 Copilot의 요약을 파악하는 데 도움이 되는 검색 결과에 대한 원본을 보고 쉽게 액세스할 수 있도록 웹 페이지에 대한 인용이 포함됩니다. 사용자는 이러한 링크를 클릭하여 자세히 알아보려면 원본으로 바로 이동합니다.
-
텍스트를 사용하여 AI 시스템과 채팅합니다. 사용자는 텍스트를 통해 Copilot와 채팅하고 후속 질문을 하여 새로운 정보를 찾고 다양한 topics 지원을 받을 수 있습니다.
-
음성을 사용하여 AI와 인터페이스합니다. Copilot는 오디오 입력을 받을 뿐만 아니라 사용자가 선택한 4개의 음성 중 하나로 오디오 출력을 생성할 수 있습니다. 오디오-오디오 기능을 사용하면 사용자가 더 자연스럽고 유동적인 방식으로 Copilot와 상호 작용할 수 있습니다.
-
소화 가능한 뉴스 콘텐츠를 받습니다. 사용자는 Copilot Daily 기능을 통해 선택한 토픽 영역에 따라 뉴스, 날씨 및 기타 업데이트의 요약을 받고 팟캐스트와 같은 형식으로 이러한 브리핑을 들을 수 있습니다. 이 기능은 Microsoft와 계약을 맺은 권한 있는 원본의 콘텐츠를 가져옵니다.
-
새로운 아이디어를 생성하는 데 도움을 받으세요. 사용자가 Copilot 환경과 상호 작용할 때마다 유용하고 흥미로운 topics 대해 Copilot와 채팅을 시작하기 위해 클릭할 수 있는 카드 집합이 표시됩니다. 사용자가 다른 Microsoft 소비자 서비스와 상호 작용한 경우 카드는 개인 정보 취급 방침에 따라 개인 설정됩니다. 시간이 지남에 따라 Copilot의 카드는 사용자의 채팅 기록에 따라 개인 설정될 수 있습니다. 사용자는 설정에서 언제든지 개인 설정을 옵트아웃할 수 있으며, EEA(유럽 경제 지역) 및 영국의 사용자를 위해 나중에 개인 설정 옵션을 모색하고 있습니다.
-
창의적인 콘텐츠를 생성합니다. Copilot와 채팅할 때 사용자는 Copilot 환경의 도움을 받아 새로운 시, 농담, 이야기, 이미지 및 기타 콘텐츠를 만들 수 있습니다. 이미지는 Designer 기술을 활용하여 만들어집니다.
다른 사용 사례를 선택할 때 고려 사항
AI가 실수를 할 수 있으므로 의사 결정을 내리거나 Copilot의 응답에 따라 행동하기 전에 모든 콘텐츠를 검토하는 것이 좋습니다. 또한 피하거나 사용 약관에 어긋나게 하는 특정 시나리오가 있습니다. 예를 들어 Microsoft는 불법 활동과 관련하여 또는 불법 활동을 조장하기 위한 목적으로 Copilot를 사용하는 것을 허용하지 않습니다.
제한 사항
Copilot 환경의 기반이 되는 언어, 이미지 및 오디오 모델에는 사회적 편견을 반영할 수 있는 학습 데이터가 포함될 수 있으며, 이로 인해 Copilot가 불공평하거나 신뢰할 수 없거나 불쾌하다고 인식되는 방식으로 동작할 수 있습니다. 집중적인 모델 학습 및 안전 미세 조정뿐만 아니라 학습 데이터, 사용자 프롬프트 및 모델 출력에 배치하는 책임 있는 AI 컨트롤 및 안전 시스템의 구현에도 불구하고 AI 기반 서비스는 틀리고 확률적입니다. 이로 인해 모든 부적절한 콘텐츠를 포괄적으로 차단하기 어려우며, 이로 인해 AI에서 생성된 콘텐츠에 나타날 수 있는 잠재적 편견, 고정관념, 비경지성 또는 기타 유형의 피해가 발생할 위험이 있습니다. Copilot 환경에서 이러한 제한 사항이 나타날 수 있는 방법 중 일부는 여기에 나열되어 있습니다.
-
스테레오티핑: 코필로트 경험은 잠재적으로 고정관념을 강화할 수 있습니다. 예를 들어 , "그는 간호사입니다"와 "그녀는 의사입니다"를 터키어와 같은 성별없는 언어로 번역한 다음 영어로 다시 번역 할 때 Copilot는 실수로 "그녀는 간호사입니다"와 "그는 의사입니다"의 고정 관념 (그리고 잘못된) 결과를 산출 할 수 있습니다. 또 다른 예는 프롬프트 "아버지없는 아이들"을 기반으로 이미지를 생성 할 때 시스템은 하나의 인종이나 민족에서 어린이의 이미지를 생성하여 기본 모델을 학습시키는 데 사용되는 공개적으로 사용할 수있는 이미지에 존재 할 수있는 유해한 고정 관념을 강화할 수 있습니다. 또한 Copilot는 이미지의 구성 요소에 의존하고 사실이 아닐 수 있는 가정을 하여 사용자 입력 이미지의 내용에 따라 스테레오타입을 강화할 수 있습니다. 입력 및 출력 분류자, 미세 조정된 모델 및 시스템 메시지를 포함하여 공격적인 스테레오타입이 포함된 콘텐츠의 위험을 줄이기 위한 완화를 구현했습니다.
-
과잉 표현 및 과소 대표: Copilot는 잠재적으로 사람들의 그룹을 과도하게 또는 과소 대표하거나 응답에서 전혀 대표하지 않을 수 있습니다. 예를 들어 "gay"라는 단어가 포함된 텍스트 프롬프트가 잠재적으로 유해하거나 불쾌감을 주는 것으로 감지되면 LGBTQIA+ 커뮤니티에 대한 합법적인 세대의 과소 대표로 이어질 수 있습니다. 입력 및 출력 분류자, 미세 조정된 모델 및 시스템 메시지를 포함하는 것 외에도 Designer 프롬프트 보강을 여러 완화 방법 중 하나로 사용하여 사용자 그룹을 과도하게 또는 과소 나타내는 콘텐츠의 위험을 줄입니다.
-
부적절하거나 불쾌한 콘텐츠: Copilot 환경은 잠재적으로 다른 유형의 부적절하거나 불쾌한 콘텐츠를 생성할 수 있습니다. 예를 들어 프롬프트의 컨텍스트에서 부적절하거나 다른 형식(예: 텍스트)의 동일한 출력과 비교할 때 부적절한 하나의 형식(예: 오디오)으로 콘텐츠를 생성하는 기능이 있습니다. 다른 예로는 증오 기호, 논쟁의 여지가 있거나 이데올로기적으로 양극화되는 topics 관련된 콘텐츠, 성적 관련 콘텐츠 필터를 회피하는 성적으로 청구되는 콘텐츠와 같은 유해한 아티팩트가 잠재적으로 포함된 AI 생성 이미지가 있습니다. 입력 및 출력 분류자, 미세 조정된 모델 및 시스템 메시지와 같이 부적절하거나 불쾌한 콘텐츠를 포함하는 세대의 위험을 줄이기 위한 완화 방안을 마련했습니다.
-
정보 안정성: Copilot는 필요한 경우 신뢰할 수 있는 원본으로 대응하는 것을 목표로 하지만 AI는 실수를 할 수 있습니다. 잠재적으로 무의미한 콘텐츠를 생성하거나 합리적이지만 사실상 부정확한 콘텐츠를 제작할 수 있습니다. 높은 권한의 웹 데이터에서 응답을 그리는 경우에도 응답은 완전히 정확하거나 신뢰할 수 없는 방식으로 해당 콘텐츠를 잘못 나타낼 수 있습니다. 사용자 인터페이스 및 이와 같은 설명서에서 Copilot가 실수를 할 수 있음을 사용자에게 상기시켜 줍니다. 또한 의사 결정을 내리거나 Copilot의 응답에 따라 행동하기 전에 사실을 두 번 검사 권장하는 등 AI의 한계에 대해 사용자를 계속 교육합니다. 사용자가 텍스트를 통해 Copilot와 상호 작용할 때 고품질 웹 데이터를 접지하여 세대가 접지되지 않은 위험을 줄이려고 시도합니다.
-
다국어 성능: 업데이트된 Copilot를 릴리스할 때 영어가 가장 잘 수행되는 언어 간에 성능이 변형될 수 있습니다. 언어 간 성능 향상은 주요 투자 영역이며, 최근 모델은 성능 향상을 이끌었습니다.
-
오디오 제한 사항: 오디오 모델에서 다른 제한 사항을 도입할 수 있습니다. 대체로 음성 입력, 비 음성 노이즈, 어휘, 악센트 및 삽입 오류의 음향 품질은 Copilot가 만족스러운 방식으로 사용자의 오디오 입력을 처리하고 응답하는지 여부에도 영향을 줄 수 있습니다. 또한 Copilot Voice를 사용할 때 사용자 프롬프트가 웹 검색을 트리거하지 않으므로 Copilot는 음성 모드에서 현재 이벤트에 응답하지 못할 수 있습니다.
-
인터넷 연결에 대한 종속성: 업데이트된 Copilot 환경은 인터넷 연결에 의존하여 작동합니다. 연결 중단은 서비스의 가용성 및 성능에 영향을 미칠 수 있습니다.
시스템 성능
많은 AI 시스템에서 성능은 정확도와 관련하여 정의되는 경우가 많습니다(즉, AI 시스템이 올바른 예측 또는 출력을 제공하는 빈도). Copilot를 사용하면 사용자의 선호도를 반영하는 AI 기반 도우미 Copilot에 중점을 두고 있습니다. 따라서 두 명의 다른 사용자가 동일한 출력을 보고 고유한 상황과 기대에 얼마나 유용하거나 관련성이 있는지에 대해 서로 다른 의견을 가질 수 있습니다. 즉, 이러한 시스템의 성능을 보다 유연하게 정의해야 합니다. 일반적으로 성능은 사용자가 예상한 대로 애플리케이션이 수행된다는 의미로 간주합니다.
시스템 성능 향상을 위한 모범 사례
자연스러운 대화형 언어를 사용하여 인터페이스와 상호 작용합니다. 사용자에게 편안한 방식으로 Copilot와 상호 작용하는 것은 환경을 통해 더 나은 결과를 얻는 열쇠입니다. 사람들이 일상 생활에서 효과적으로 의사 소통하는 데 도움이 되는 기술을 채택하는 것과 유사하게, 사용자에게 친숙한 텍스트 또는 음성을 통해 AI 기반 도우미 Copilot와 상호 작용하면 더 나은 결과를 이끌어내는 데 도움이 될 수 있습니다.
사용자 환경 및 채택. Copilot를 효과적으로 사용하려면 사용자가 해당 기능과 제한 사항을 이해해야 합니다. 학습 곡선이 있을 수 있으며 사용자는 다양한 Copilot 리소스(예: 이 문서 및 Copilot FAQ)를 참조하여 서비스와 효과적으로 상호 작용하고 혜택을 누릴 수 있습니다.
위험 매핑, 측정 및 관리
다른 변환 기술과 마찬가지로 AI의 이점을 활용하는 것은 위험이 없으며, Microsoft 책임 있는 AI 프로그램의 핵심 부분은 잠재적 위험을 식별하고 매핑하며, 이러한 위험을 측정하고, 완화를 구축하고 시간이 지남에 따라 Copilot를 지속적으로 개선하여 관리하도록 설계되었습니다. 아래 섹션에서는 잠재적 위험을 매핑, 측정 및 관리하는 반복적인 접근 방식을 설명합니다.
맵: 적색 팀과 같은 신중한 계획 및 배포 전 적대적 테스트는 잠재적인 위험을 매핑하는 데 도움이 됩니다. Copilot 환경에 전력을 공급하는 기본 모델은 관련 주제 영역에서 다분야 관점을 나타내는 테스터로부터 레드 팀 테스트를 거쳤습니다. 이 테스트는 최신 기술이 추가 세이프가드를 적용하지 않고 어떻게 작동하는지 평가하도록 설계되었습니다. 모델 수준에서 이러한 연습의 의도는 유해한 응답을 생성하고, 오용할 수 있는 잠재적인 방법을 노출하고, 기능 및 제한 사항을 식별하는 것입니다.
제한된 릴리스 미리 보기에서 Copilot 환경을 공개적으로 사용할 수 있도록 하기 전에 애플리케이션 수준에서 레드 팀을 수행하여 단점과 취약성에 대해 Copilot를 평가했습니다. 이 프로세스를 통해 다양한 사용자가 시스템을 활용하는 방법을 더 잘 이해하고 완화를 개선하는 데 도움이 됩니다.
측정값: 기존의 안전 평가에 대해 Copilot를 평가하는 것 외에도 위에서 설명한 빨간색 팀을 사용하면 탈옥, 유해한 콘텐츠 및 비경지 콘텐츠와 같은 식별된 잠재적 위험에 해당하는 평가 및 책임 있는 AI 메트릭을 개발하는 데 도움이 됩니다.
사용자 참가자와 자동화된 대화 생성 파이프라인의 조합을 사용하여 이러한 위험을 대상으로 하는 대화형 데이터를 수집했습니다. 그런 다음, 각 평가는 학습된 인간 주석 풀 또는 자동화된 주석 파이프라인에 의해 채점됩니다. 제품이 변경되거나 기존 완화가 업데이트되거나 새로운 완화가 제안될 때마다 제품 성능과 책임 있는 AI 메트릭을 모두 평가하도록 평가 파이프라인을 업데이트합니다. 이러한 자동화된 평가 컨텍스트 파이프라인은 사용자 평가자와 수집된 대화와 악의적인 방식으로 정책을 테스트하라는 메시지가 표시된 LLM으로 생성된 합성 대화의 조합입니다. 이러한 각 안전 평가는 LLM으로 자동으로 채점됩니다. 새로 개발된 평가의 경우 각 평가는 처음에 텍스트 콘텐츠를 읽거나 오디오 출력을 수신 대기한 다음 자동 LLM 기반 평가로 변환하는 사용자 레이블러에 의해 점수가 매기됩니다.
모델에서 의도한 동작을 인간과 자동화된 평가 파이프라인과 결합하여 대규모로 잠재적 위험에 대한 측정을 신속하게 수행할 수 있습니다. 시간이 지남에 따라 새로운 문제를 파악할 때 추가 위험을 평가하기 위해 측정 집합을 계속 확장합니다.
관리: 레드 팀을 통해 잠재적인 위험과 오용을 식별하고 위에서 설명한 접근 방식을 사용하여 측정하면서 Copilot 환경과 관련된 추가 완화 방법을 개발했습니다. 아래에서는 이러한 완화 방법 중 일부를 설명합니다. 우리는 제품 성능 및 위험 완화 접근 방식을 개선하기 위해 Copilot 환경을 계속 모니터링할 것입니다.
-
단계별 릴리스 계획 및 지속적인 평가. Microsoft는 기술 및 사용자 동작이 발전함에 따라 책임 있는 AI 접근 방식을 지속적으로 학습하고 개선하기 위해 최선을 다하고 있습니다. 증분 릴리스 전략은 기술을 랩에서 전 세계로 안전하게 이동하는 방법의 핵심 부분이며, Copilot 환경의 이점을 확보하기 위해 신중하고 사려 깊은 프로세스에 전념하고 있습니다. 제품 성능 및 기존 완화를 개선하고 학습에 대응하여 새로운 완화를 구현하기 위해 Copilot를 정기적으로 변경하고 있습니다.
-
분류자 및 시스템 메시지를 활용하여 잠재적인 위험 또는 오용을 완화합니다. 사용자 프롬프트에 대한 응답으로 LLM은 문제가 있는 콘텐츠를 생성할 수 있습니다. 위의 시스템 동작 및 제한 섹션에서 제한하려는 콘텐츠 유형에 대해 설명했습니다. 분류자와 시스템 메시지는 이러한 유형의 콘텐츠 위험을 줄이기 위해 Copilot에서 구현된 완화의 두 가지 예입니다. 분류자는 사용자 프롬프트 또는 생성된 응답에서 잠재적으로 유해한 콘텐츠에 플래그를 지정하도록 텍스트를 분류합니다. 또한 Microsoft의 AI 원칙 및 사용자 기대에 맞게 동작을 조정하기 위해 모델에 지침을 제공하는 시스템 메시지를 활용하기 위한 기존 모범 사례를 활용합니다.
-
Copilot 이미지 업로드에서 개인 정보 보호 사용자가 프롬프트의 일부로 이미지를 업로드할 때 Copilot는 이미지를 AI 모델로 보내기 전에 얼굴 흐림 기술을 사용합니다. 얼굴 흐림은 이미지에서 개인의 개인 정보를 보호하는 데 사용됩니다. 얼굴 흐림 기술은 컨텍스트 단서를 사용하여 흐리게 할 위치를 결정하고 이미지의 모든 얼굴을 흐리게하려고 시도합니다. 얼굴이 흐리게 표시되면 AI 모델은 입력 이미지를 인터넷에서 공개적으로 사용할 수 있는 이미지와 비교할 수 있습니다. Copilot는 업로드된 이미지에서 사람들의 숫자 표현을 저장하지 않으며 제3자와 이미지를 공유하지 않습니다. 사람이 포함되지 않은 업로드된 이미지의 경우 Copilot는 사용자의 프롬프트에 응답하기 위한 목적으로만 해당 이미지의 숫자 표현을 사용하며, 대화가 종료된 후 30일 이내에 삭제됩니다. 사용자가 Copilot에게 업로드된 이미지에 대한 정보를 요청하는 경우 응답은 업로드된 이미지에 대한 정보를 제공하는 모델의 기능에 대한 얼굴 흐림의 영향을 반영할 수 있습니다(예: Copilot는 누군가를 흐릿한 얼굴로 묘사할 수 있음).
-
AI 공개. 또한 Copilot는 AI 시스템과 상호 작용하고 있음을 사용자에게 알리도록 설계되었습니다. 사용자가 Copilot에 참여함에 따라 시스템의 기능을 이해하고, Copilot가 AI에 의해 구동된다는 사실을 공개하고, 제한 사항을 전달하는 데 도움이 되도록 설계된 다양한 터치포인트를 제공합니다. 이 환경은 사용자가 Copilot를 최대한 활용하고 과잉 의존의 위험을 최소화할 수 있도록 이러한 방식으로 설계되었습니다. 공개는 또한 사용자가 코필로트와 코필로트와의 상호 작용을 더 잘 이해하는 데 도움이 됩니다.
-
미디어 출처. Copilot가 이미지를 생성할 때 Copilot를 사용하여 만든 모든 AI 생성 이미지의 원본 또는 "출처"를 표시하는 암호화 방법을 사용하는 "콘텐츠 자격 증명" 기능을 사용하도록 설정했습니다. 이 기술은 C2PA(콘텐츠 및 신뢰성 연합)에서 설정한 표준을 사용하여 AI 생성 이미지에 대한 신뢰와 투명성을 더합니다.
-
자동화된 콘텐츠 검색. 사용자가 채팅 프롬프트의 일부로 이미지를 업로드할 때 Copilot는 아동 성적 착취 및 학대 이미지(CSEAI)를 검색하는 도구를 배포합니다. Microsoft는 미국 법률에 따라 모든 명백한 CSEAI를 NCMEC(실종 아동 및 착취 아동 센터)에 보고합니다. 사용자가 파일을 업로드하여 분석 또는 처리할 때 Copilot는 자동화된 검사를 배포하여 불법 활동 또는 악성 코드와 관련될 수 있는 텍스트와 같이 위험 또는 오용으로 이어질 수 있는 콘텐츠를 검색합니다.
-
사용 약관 및 행동 강령. 사용자는 Copilot의 적용 가능한 사용 약관 및 Microsoft서비스 계약 및 Microsoft 개인정보처리방침을 준수해야 하며, Microsoft 개인정보처리방침은 무엇보다도 허용 가능하고 허용되지 않는 사용 및 약관 위반의 결과를 알려야 합니다. 사용 약관은 또한 사용자에게 추가 공개를 제공하며 사용자가 Copilot에 대해 배울 수 있는 참조 역할을 합니다. 심각하거나 반복된 위반을 저지른 사용자는 서비스에서 일시적으로 또는 영구적으로 일시 중단될 수 있습니다.
-
피드백, 모니터링 및 감독. Copilot 환경은 사용자가 Microsoft 운영 팀에서 검토하는 피드백을 제출할 수 있는 기존 도구를 기반으로 합니다. 또한 더 자세히 알아보면서 위험 매핑, 측정 및 관리에 대한 접근 방식은 계속 진화할 것이며 미리 보기 기간 동안 수집된 피드백을 기반으로 이미 개선되고 있습니다.
책임 있는 AI에 대해 자세히 알아보기
Microsoft Copilot 대해 자세히 알아보기
이 문서 정보
© 2024 Microsoft Corporation. All rights reserved. 이 문서는 정보 제공 목적으로만 "있는 그대로" 제공됩니다. URL 및 기타 인터넷 웹 사이트 참조를 포함하여 이 문서에 표현된 정보 및 보기는 예고 없이 변경될 수 있습니다. 소프트웨어의 사용으로 발생하는 위험은 귀하의 책임입니다. 일부 예제는 그림 전용이며 가상입니다. 실제 연결은 의도되거나 유추되지 않습니다.
이 문서는 의도된 것이 아니며 법률 자문을 제공하는 것으로 해석되어서는 안 됩니다. 운영 중인 관할권에는 AI 시스템에 적용되는 다양한 규정 또는 법적 요구 사항이 있을 수 있습니다. 시스템에 적용될 수 있는 법률 또는 규정이 확실하지 않은 경우, 특히 이러한 권장 사항에 영향을 미칠 수 있다고 생각되는 경우 법률 전문가에게 문의하세요. 이러한 모든 권장 사항 및 리소스가 모든 시나리오에 적합한 것은 아니며 반대로 일부 시나리오에서는 이러한 권장 사항 및 리소스가 충분하지 않을 수 있습니다.
게시 날짜: 2024/10/01
마지막 업데이트: 2024/10/01