評分規準生成：負責任的 AI 常見問題

套用到

Microsoft Teams Microsoft Teams 教育版

什麼是評分規準產生？

評分規準產生大幅簡化了評分標準的製作過程，讓教師能夠描述評分標準，並利用生成式 AI 根據他們的情境量身打造評分標準。教師將收到生成的評分標準，供他們檢視並透過調整目標年齡範圍、生成內容長度及評分規準細節等特徵來調整。教師批准並保存評分標準後，即可將其附加到作業中，用於評分學生作業。

評分規準產生能做什麼？

評分規準生成支援以下生成式 AI 操作：

評分標準建議 – 根據所提供的評分標準標題與描述，產生評分標準建議。
評分標準產生 – 根據所提供的評分標準標題、評分標準描述、年齡範圍、評分等級及評分標準產生評分標準。
評分標準重寫 ——評分標準會根據修訂後的評分標準、年齡範圍、句數、評分標準及評分標準進行重寫。

評分規準生成 (s) 的預期用途是什麼？

評分規準產生是為教師設計的，該功能僅提供給教育者或教師，教師必須先審核/核准生成的內容，評分標準才會顯示給學生。

評分規準的產生是如何被評估的？哪些計量可用來測量效能?

評分規準的產生是透過與教師的直接測試驗證，以評估所產生評分標準的相關性與實用性。

驗證是為了確保評分規準產生能抵禦惡意內容

標準如何用於評分規準產生？

系統提供在評分標準產生過程中新增標準的功能。標準用於產生建議的評分標準標準。在此了解更多標準資訊在 Microsoft 工具中加入教育標準

教育者在產生評分標準前，應該先驗證評分標準

評分規準產生有哪些限制？使用者在使用系統時，如何減少評分規準產生限制的影響？

評分規準生成並非建立在事實知識基礎上，雖然它以流暢且文法正確的方式寫作，但產生的內容可能不準確或不適當。它無法理解意義或評估準確性，因此教育者需要審視它所寫的內容，並運用最佳判斷。教育者必須驗證並審查所有產生的評分標準，以確保準確性與相關性。

哪些操作因素與環境能有效且負責任地使用評分規準產生？

有效且負責任地使用評分規準產生，需要謹慎實施操作因素並謹慎配置設定。主要考量包括：

明確且詳盡的評估目標
- 提供精確的評分標準評估目標、正確的評分標準指示及適當的評分標準量表，以引導 AI 產生與情境相關的評分標準。
教育者審查與驗證
- 務必審查並驗證 AI 生成的評分標準，以確認其準確性、相關性及符合學生特定需求的準確性。
- 避免過度依賴人工智慧;用它來補充人類判斷，而非取代。
教育者培訓
- 為教育工作者提供有效輸入資料及解讀 AI 產生輸出的訓練。
- 分享將 AI 生成評分規準整合進教學策略的最佳實務。

支援的語言

AI 產生的評分規準已驗證並支援以下語言：英語 (美國) en-US、德語 (德語) de-DE、西班牙語 (西班牙語) es-ES、挪威博克默爾語 (挪威語) nb-NO、法語 (法國語) fr-FR、法語 (加拿大語) fr-CA、西班牙語 (墨西哥語) es-MX、葡萄牙語 (巴西語) pt-BR、日語 (日本語) ja-JP，荷蘭 (荷蘭) 荷蘭至荷蘭，瑞典 ( 瑞典) 瑞典至東南。

對於其他英語本地語作為輸入，例如英語-英國語或英語-澳洲語，系統則以英語-美國語輸出

其他語言可能可用，但尚未被測試。

該系統尚未針對這些語言中多樣的方言和社會方言進行專門評估

生成式 AI 模型是利用大量資料訓練的，而這些資料多半是英文。這有時能讓英語表現優於非英語語言。如同任何生成式 AI 模型的部署，我們鼓勵使用者注意這些系統在其特定使用情境及文化與語言脈絡下的限制。

Microsoft 計劃在 Rubrics Generation 中加入更多支援的語言與本地語言。隨著支援更多語言，本透明文件將持續更新。

深入了解

開始用生成式 AI 製作評分規準

在 Microsoft Teams 中建立並管理評分評分標準

排除 AI 評分規準

重新生成 AI 評分標準

評分規準生成：負責任的 AI 常見問題

什麼是評分規準產生？

評分規準產生能做什麼？

評分規準生成 (s) 的預期用途是什麼？

評分規準的產生是如何被評估的？哪些計量可用來測量效能?

標準如何用於評分規準產生？

評分規準產生有哪些限制？使用者在使用系統時，如何減少評分規準產生限制的影響？

哪些操作因素與環境能有效且負責任地使用評分規準產生？

支援的語言

深入了解

此資訊是否有幫助?

感謝您的意見反應!

評分規準生成：負責任的 AI 常見問題

什麼是評分規準產生？

評分規準產生能做什麼？

評分規準生成 (s) 的預期用途是什麼？

評分規準的產生是如何被評估的？ 哪些計量可用來測量效能?

標準如何用於評分規準產生？

評分規準產生有哪些限制？ 使用者在使用系統時，如何減少評分規準產生限制的影響？

哪些操作因素與環境能有效且負責任地使用評分規準產生？

支援的語言

深入了解

此資訊是否有幫助?

感謝您的意見反應!

評分規準的產生是如何被評估的？哪些計量可用來測量效能?

評分規準產生有哪些限制？使用者在使用系統時，如何減少評分規準產生限制的影響？