导出内容搜索结果

成功运行内容搜索后,可以将搜索结果导出到本地计算机。 导出电子邮件结果时,将以 PST 文件形式下载到计算机。 当你从 SharePoint 和 OneDrive 网站导出内容时,将导出本地 Office 文档副本。 导出的搜索结果中还包含其他文档和报告。

导出内容搜索结果涉及准备结果以及将结果下载到本地计算机。 导出搜索结果的这些步骤也适用于导出与 Microsoft Purview 电子数据展示 (Standard) 事例关联的搜索结果。

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

导出搜索结果之前

  • 若要导出搜索结果,必须在 Microsoft Purview 合规门户 中分配导出管理角色。 此角色分配给内置电子数据展示管理员角色组。 它没有默认分配至组织管理角色组。 有关详细信息,请参阅分配电子数据展示权限

  • 用于导出搜索结果的计算机必须满足以下系统要求:

    • 最新版本的 Windows(32 位或 64 位)
    • Microsoft .NET Framework 4.7 或更高版本
  • 必须使用 Microsoft Edge1 运行电子数据展示导出工具。 不再支持使用 Internet Explorer 11 导出搜索结果2

    注意

    1 由于最近对 Microsoft Edge 进行了更改,默认情况下不再启用 SelectOnce 支持。 有关在 Edge 中启用 SelectOnce 支持的说明,请参阅 在 Microsoft Edge 中使用电子数据展示导出工具。 此外,Microsoft 不会为 SelectOnce 应用程序制造第三方扩展或加载项。 不支持使用具有第三方扩展或加载项的浏览器导出数据。

    2 从 2021 年 8 月开始,Microsoft 365 应用和服务将不再支持 Internet Explorer 11 (IE11) 并且用户的体验可能会降级或无法连接到这些应用和服务。 这些应用和服务将在未来的几周和几个月内逐步淘汰,以确保支持顺利结束。 每个应用和服务都按独立计划逐步淘汰。 有关详细信息,请参阅此 博客文章

  • 步骤 2 中用于下载搜索结果的电子数据展示导出工具不支持使用脚本或运行 cmdlet) 的自动化 (。 强烈建议不要在步骤 2 中自动执行下载过程。 如果自动执行此过程,Microsoft 支持部门在遇到问题时不会提供帮助。

  • 建议将搜索结果下载到本地计算机。 若要消除公司的防火墙或代理基础结构,避免在下载搜索结果时出现问题,可以考虑将搜索结果下载到网络外部的虚拟桌面。 这可以减少导出大量文件时在 Azure 数据连接中发生的超时。 有关虚拟桌面的详细信息,请参阅 Windows 虚拟桌面

  • 若要提高下载搜索结果时的性能,请考虑将返回大量结果的搜索划分为较小的搜索。 例如,可以在搜索查询中使用日期范围来返回可以更快地下载的较小结果集。

  • 导出搜索结果时,数据将暂时存储在 Microsoft 云中 Microsoft 提供的 Azure 存储位置中,然后再将其下载到本地计算机。 请确保组织可以连接到 Azure 中的终结点,即 *.blob.core.windows.net (通配符表示导出) 的唯一标识符。 搜索结果数据在创建两周后从Azure 存储位置删除。

  • 如果组织使用代理服务器与 Internet 通信,则需要在用于导出搜索结果的计算机上定义代理服务器设置 (,以便代理服务器) 对导出工具进行身份验证。 为此,请在与 Windows 版本匹配的位置打开 machine.config 文件。

    • 32 位:%windir%\Microsoft.NET\Framework\[version]\Config\machine.config

    • 64 位:%windir%\Microsoft.NET\Framework64\[version]\Config\machine.config

      在 和 </configuration> 标记之间的<configuration>某个位置将以下行添加到 machine.config 文件中。 请务必将 和 Port 替换为ProxyServer组织的正确值,例如 proxy01.contoso.com:80

      <system.net>
         <defaultProxy enabled="true" useDefaultCredentials="true">
           <proxy proxyaddress="https://ProxyServer :Port " 
                  usesystemdefault="False" 
                  bypassonlocal="True" 
                  autoDetect="False" />
         </defaultProxy>
      </system.net>
      
  • 如果搜索结果超过 7 天,并且你提交了导出作业,则会显示一条错误消息,提示你重新运行搜索以更新搜索结果。 如果发生这种情况,请取消导出,重新运行搜索,然后再次开始导出。

第 1 步:准备要导出的搜索结果

第一步是要准备用于导出的搜索结果。 准备结果时,这些结果将上传到 Microsoft 提供的 microsoft 云中Azure 存储位置。 邮箱和网站中的内容以每小时 2 GB 的最大速率上传。

  1. Microsoft Purview 合规门户中,选择要从中导出结果的内容搜索。

  2. 在浮出控件页底部的 操作 菜单上,选择 导出结果

    “操作”菜单中的“导出结果”选项。

    随即显示“导出结果”浮出控件页。 可用于导出内容的导出选项取决于搜索结果是位于邮箱还是网站中,还是同时位于两者的组合中。

  3. 在“输出选项”下,选择以下选项之一:

    导出输出选项。

    • 所有项(不包括格式无法识别的项)都已加密或由于其他原因未编制索引。 此选项仅导出索引项。

    • 所有项(包括格式无法识别的项)都已加密,或者由于其他原因未编制索引。 此选项导出索引项和未编制索引的项目。

    • 仅具有无法识别格式、已加密或由于其他原因未编制索引的项目。 此选项仅导出未编制索引的项目。

      有关如何导出部分索引项的说明,请参阅 详细信息 部分部分部分。 有关部分索引项的详细信息,请参阅 内容搜索中的部分索引项

  4. 在“将 Exchange 内容导出为”下,选择以下选项之一:

    Exchange 选项。

    • 每个邮箱有一个 PST 文件:为包含搜索结果的每个用户邮箱导出一个 PST 文件。 来自用户存档邮箱的任何结果都包含在同一 PST 文件中。 此选项从源邮箱重现邮箱文件夹结构。
    • 包含所有邮件的一个 PST 文件:导出名为 Exchange.pst () 的单个 PST 文件,该文件包含搜索中包含的所有源邮箱的搜索结果。 此选项将重现每个邮件的邮箱文件夹结构。
    • 包含单个文件夹中所有邮件的 PST 文件:将搜索结果导出到单个 PST 文件,其中所有邮件都位于单个顶级文件夹中。 此选项还允许数据主体按时间顺序查看项目(按发送日期排序项目),而无需导航到每个项目的原始邮箱文件夹结构。
    • 单个邮件:使用 .msg 格式将搜索结果导出为单个电子邮件。 如果选择此选项,电子邮件搜索结果将导出到文件系统中的文件夹。 单个邮件的文件夹路径与将结果导出到 PST 文件时所用的文件夹路径相同。
  5. 配置以下附加选项:

    配置其他导出选项。

    1. 选中 “为 Exchange 内容启用重复数据删除 ”复选框以排除重复邮件。

      如果选择此选项,即使在搜索的邮箱中找到同一邮件的多个副本,也会只导出邮件的一个副本。 导出结果报表(名为 Results.csv 的文件)将为重复邮件的每个副本包含一行,以便您可以标识包含重复邮件副本的邮箱(或公用文件夹)。 有关重复数据删除以及如何识别重复项的详细信息,请参阅 电子数据展示搜索结果中的重复数据删除。

    2. 选中 “包含 SharePoint 文件版本 ”复选框可导出所有版本的 SharePoint 文档。 仅当搜索的内容源包括 SharePoint 或OneDrive for Business网站时,才会显示此选项。

    3. 选择“ 导出压缩 (压缩) 文件夹中的文件。仅包含单个邮件和 SharePoint 文档 复选框,用于将搜索结果导出到压缩文件夹。 仅当您选择将 Exchange 项目导出为单个邮件以及搜索结果包括 SharePoint 或 OneDrive 文档时,才会显示此选项。 导出项时,此选项主要用于解决 Windows 文件路径名称中 260 个字符的限制。 请参阅 “详细信息 ”部分中的“导出项的文件名”。

    重要

    在压缩 (压缩) 文件夹中导出文件会增加导出时间。

  6. 选择 “导出 ”以启动导出过程。 搜索结果已准备好下载,这意味着它们从原始内容位置收集,然后上传到 Microsoft 云中的 Azure 存储位置。 这可能需要几分钟。

有关下载导出的搜索结果的说明,请参阅下一部分。

第 2 步:下载搜索结果

下一步是将搜索结果从 WindowsAzure 存储区域下载至你的本地计算机。

重要

必须在步骤 1 中创建导出作业后的 14 天内下载导出的搜索结果。

  1. 在合规性门户的 “内容搜索 ”页上,选择“ 导出 ”选项卡

    可能需要选择 刷新 才能更新导出作业列表,以便它显示你创建的导出作业。 导出作业的名称与相应的搜索名称相同, _Export 追加到搜索名称中。

  2. 选择在步骤 1 中创建的导出作业。

  3. 在浮出控件页面上,选择“导出密钥”下的“复制到剪贴板”。 在步骤 6 中,将使用此密钥下载搜索结果。

    重要

    因为任何人都可以安装和启用电子数据展示导出工具,然后使用该密钥来下载搜索结果,所以一定要采取预防措施来保护此密钥,就像保护你的密码或其他与安全相关的信息。

  4. 在浮出控件页面顶部,选择“下载结果”。

  5. 如果系统提示你安装 电子数据展示导出工具,请单击“安装”。

  6. 电子数据展示导出工具中,执行以下操作:

    电子数据展示导出工具。

    1. 将步骤 3 中复制的导出密钥粘贴到相应的框中。

    2. 选择“浏览”指定要下载搜索结果文件的位置。

      重要

      由于下载过程中网络活动较高,应仅将搜索结果下载到本地计算机上的内部驱动器上的某个位置。 为获得最佳下载体验,请遵循以下准则:

      • 请勿将搜索结果下载到 UNC 路径、映射的网络驱动器、外部 USB 驱动器或同步的OneDrive for Business帐户。
      • 对将搜索结果下载到的文件夹禁用防病毒扫描。
      • 将搜索结果下载到用于并发下载作业的不同文件夹。
  7. 选择“开始”将搜索结果下载到计算机。

    电子数据展示工具显示有关导出过程的状态信息,包括要下载的剩余项的估计数量(和大小)。 导出过程完成后,你可以在文件下载的位置访问它们。

更多信息

下面是有关导出搜索结果的详细信息。

导出限制

有关导出内容搜索结果时的限制的信息,请参阅 内容搜索限制中的“导出限制”部分。

导出报告

  • 导出搜索结果时,除了搜索结果之外,还包含以下报表。

    • 导出摘要 包含导出摘要的 Excel 文档。 这包括所搜索的内容源数、搜索结果的估计和下载大小,以及导出的估计和下载的项目数等信息。

    • 清单 清单文件 (XML 格式) ,其中包含有关搜索结果中包含的每个项的信息。

    • 结果 一个 Excel 文档,其中包含有关作为搜索结果下载的每个项目的信息。 对于电子邮件,结果日志包含有关每个邮件的信息,包括:

      • 邮件在源邮箱中的位置(包括邮件位于主邮箱还是存档邮箱)。

      • 发送或接收邮件的日期。

      • 邮件的主题行。

      • 邮件的发件人和收件人。

      • 如果在导出搜索结果时启用了重复删除选项,则邮件是否为重复消息。 重复消息在“复制到项”列中有一个值,该值将消息标识为重复消息。 “复制到项”列中的值包含已导出的消息的项标识。 有关详细信息,请参阅 电子数据展示搜索结果中的重复数据删除

        对于来自 SharePoint 和 skydrive_pro 网站的文档,结果日志中包含每个文档的信息,包括:

        • 文档的 URL。
        • 文档所在的网站集的 URL 。
        • 上次修改文档的日期。
        • 文档的名称(位于结果日志中的主题列)。
    • 未编制索引的项 一个 Excel 文档,其中包含有关搜索结果中将包含的任何部分索引项的信息。 如果在生成搜索结果报表时未包含部分索引项,则此报表仍会下载,但将为空。

    • 错误和警告 包含导出过程中遇到的文件的错误和警告。 有关每个单独的错误或警告的特定信息,请参阅“错误详细信息 ”列。

    • 跳过的项目从 SharePoint 和OneDrive for Business网站导出搜索结果时,导出通常包括跳过的项目报表 (SkippedItems.csv) 。 此报表中引用的项目通常是不会下载的项目,例如文件夹或文档集。 根据设计,不导出这些类型的项。 对于跳过的其他项目,跳过的项目报告中的“错误类型”和“错误详细信息”字段显示跳过该项目的原因,并且未随其他搜索结果一起下载。

    • Trace.log 包含有关导出过程的详细日志记录信息,可帮助发现导出过程中的问题。 如果打开票证时Microsoft 支持与导出搜索结果相关的问题,系统可能会要求你提供此跟踪日志。

      注意

      只需导出这些文档,而无需导出实际搜索结果。 请查阅导出内容搜索报告

导出部分索引项

  • 如果要从内容搜索导出邮箱项目,该搜索返回搜索结果中的所有邮箱项目 (,因为搜索查询中不包含) 关键字,则部分索引项目不会复制到包含未编制索引项目的 PST 文件。 这是因为所有项目(包括任何部分索引的项目)都会自动包含在常规搜索结果中。 这意味着,部分索引项将包含在 PST 文件中 (或作为单个邮件) 包含其他索引项。

    如果同时导出索引项和部分索引项,或者如果仅从返回所有项目的内容搜索中导出索引项,则将下载相同数量的项目。 即使内容搜索的估计搜索结果 (显示在合规性门户的搜索统计信息中,) 仍将包含部分索引项数的单独估计值,也会发生这种情况。 例如,假设对包含搜索查询中没有关键字 (所有项的搜索的估计值) 显示已找到 1,000 个项目,并且还找到了 200 个部分索引项。 在本例中,1,000 个项目包括部分索引的项,因为搜索将返回所有项目。 换句话说,搜索返回的项总数为 1,000 个,而不是 () 的 1,200 个项目。 如果导出此搜索结果并选择 (导出索引项和部分索引项或仅导出部分索引项) ,则会下载 1,000 个项目。 同样,这是因为使用空白搜索查询返回所有项目时,部分索引项包含在常规 (索引) 结果中。 在此示例中,如果选择仅导出部分索引项,则只会下载 200 个未编制索引的项目。

    另请注意,在前面的示例中, (导出索引和部分索引项或仅导出) 索引项时,导出搜索结果附带的导出 摘要 报告将列出 1,000 项估计项和 1,000 个下载的项目,原因与前面所述相同。

  • 如果要从中导出结果的搜索是对组织中特定内容位置或所有内容位置的搜索,则仅导出内容位置中包含与搜索条件匹配的项目的部分项目。 换句话说,如果在邮箱或网站中未找到搜索结果,则不会导出该邮箱或网站中任何部分索引的项目。 原因是,从组织中的许多位置导出部分索引的项目可能会增加导出错误的可能性,并增加导出和下载搜索结果所需的时间。

    若要从所有内容位置导出部分索引的项目以供搜索,请将搜索配置为返回 (的所有项目,方法是从搜索查询) 删除任何关键字,然后在导出搜索结果时仅导出部分索引的项目。

    使用第三个导出选项仅导出未编制索引的项目。

  • 从 SharePoint 或 OneDrive for Business 网站导出搜索结果时,导出未编制索引的项目的功能还取决于所选的导出选项以及搜索的网站是否包含与搜索条件匹配的索引项。 例如,如果您搜索特定的 SharePoint 或OneDrive for Business网站,但没有找到搜索结果,则如果选择第二个导出选项来导出索引和未编制索引的项目,则不会导出这些网站的未编制索引的项目。 如果某个网站的索引项与搜索条件匹配,则在导出索引项和未编制索引项时,将导出该网站中的所有未编制索引的项目。 下图描述了基于网站是否包含与搜索条件匹配的索引项的导出选项。

    根据网站是否包含与搜索条件匹配的索引项,选择导出选项。

    a. 仅导出与搜索条件匹配的索引项。 不会导出部分索引的项。

    b. 如果网站中没有索引项与搜索条件匹配,则不会导出来自同一网站的部分索引项。 如果在搜索结果中返回了某个网站的索引项,则会导出该网站的部分索引项。 换句话说,仅导出包含与搜索条件匹配的项的网站的部分索引项。

    c. 将导出搜索中所有网站的所有部分索引项,而不管网站是否包含与搜索条件匹配的项目。

    如果选择导出部分索引的项目,则部分索引的邮箱项目将在单独的 PST 文件中导出,而不考虑在“ 将 Exchange 内容导出为”下选择的选项。

  • 如果在搜索结果中返回部分索引项 (因为部分索引项的其他属性与搜索条件) 匹配,则会使用常规搜索结果导出部分索引的项目。 因此,如果选择通过选择“所有项目( 包括格式无法识别的项目、已加密或由于其他原因未编制索引 的项目)导出 (的索引项和部分索引项”导出选项) ,则 Results.csv 报告中将列出使用常规结果导出的部分索引项。 它们不会在未编制索引的 items.csv 报表中列出。

导出单个邮件或 PST 文件

  • 如果消息的文件路径名称超过 Windows 的最大字符数限制,则会截断文件路径名称。 但原始文件路径名称将在清单和结果日志中列出。
  • 如前所述,电子邮件搜索结果将导出到文件系统中的文件夹。 单个邮件的文件夹路径将复制用户邮箱中的文件夹路径。 例如,对于名为“ContosoCase101”的搜索,用户收件箱中的邮件将位于文件夹路径 ~ContosoCase101\\<date of export\Exchange\user@contoso.com (Primary)\Top of Information Store\Inbox中。
  • 如果选择在包含单个文件夹中所有邮件的 PST 文件中导出电子邮件,则 PST 文件夹的顶层中将包含 “已删除邮件” 文件夹和 “搜索文件夹” 文件夹。 这些文件夹为空。
  • 如前所述,必须将电子邮件搜索结果导出为单个邮件,以便在导出时解密受 RMS 保护的邮件。 如果将电子邮件搜索结果导出为 PST 文件,则加密邮件将保持加密状态。

解密受 RMS 保护的电子邮件和加密的文件附件

导出内容搜索结果中包含的任何受权限保护 (受 RMS 保护) 电子邮件时,都会对其进行解密。 此外,使用 Microsoft 加密技术 加密并附加到搜索结果中包含的电子邮件的任何文件在导出时也会解密。 默认情况下,电子数据展示管理器角色组的成员已启用此解密功能。 这是因为默认情况下,RMS Decrypt 管理角色分配给此角色组。 导出加密电子邮件和附件时,请记住以下事项:

  • 如前所述,若要在导出时解密受 RMS 保护的邮件,则必须将搜索结果导出为单个邮件。 如果将搜索结果导出到 PST 文件,则受 RMS 保护的邮件将保持加密状态。
  • 解密的消息在 ResultsLog 报表中标识。 此报表包含名为 “解码状态”的列,此列中的 “解码 ”值标识已解密的消息。
  • 除了在导出搜索结果时解密文件附件外,还可以在预览搜索结果时预览解密的文件。 只能在导出受权限保护的电子邮件后查看它。
  • 目前,导出搜索结果时的解密功能不包括 SharePoint 和OneDrive for Business网站的加密内容。 但是,即将支持使用 Microsoft 加密技术加密并存储在 SharePoint Online 和 OneDrive for Business 中的文档。
  • 如果需要阻止某人解密 RMS 保护邮件和加密的文件附件,则必须通过复制内置电子数据展示管理器角色组) 然后从自定义角色组中删除 RMS 解密管理角色, (创建自定义角色组。 然后,将不想解密邮件的人员添加为自定义角色组的成员。

导出项的文件名

  • 操作系统) 对导出到本地计算机的电子邮件和站点文档的完整路径名称施加了 260 个字符的限制 (。 导出项目的完整路径名称包括项目的原始位置和搜索结果下载到的本地计算机上的文件夹位置。 例如,如果在电子数据展示导出工具中指定将搜索结果下载到 C:\Users\Admin\Desktop\SearchResults ,则下载的电子邮件项的完整路径名将为 C:\Users\Admin\Desktop\SearchResults\ContentSearch1\03.15.2017-1242PM\Exchange\sarad@contoso.com (Primary)\Top of Information Store\Inbox\Insider trading investigation.msg

  • 如果超出 260 个字符的限制,则会根据以下条件截断项的完整路径名称:

    • 如果完整路径名称长度超过 260 个字符,则文件名将缩短为低于限制;请注意,截断的文件名 (不包括文件扩展名) 不会少于 8 个字符。

    • 如果完整路径名称在缩短文件名后仍然太长,则会将项目从当前位置移动到父文件夹。 如果路径名仍然太长,则重复此过程:缩短文件名,并在必要时再次移动到父文件夹。 此过程重复,直到完整路径名低于 260 个字符的限制。

    • 如果已存在截断的完整路径名称,则会将版本号添加到文件名的末尾;例如 。 statusmessage(2).msg

      为了帮助缓解此问题,请考虑将搜索结果下载到具有短路径名称的位置;例如,将搜索结果下载到名为 C:\Results 的文件夹会为导出项目的路径名称添加更少的字符,而不是将它们下载到名为 的文件夹 C:\Users\Admin\Desktop\Results

  • 导出网站文档时,也可能修改文档的原始文件名。 这发生在已从 SharePoint 中删除的文档或OneDrive for Business网站,这些文档已被保留。 删除处于保留状态的网站上的文档后,已删除的文档将自动移动到网站的保留库, (网站处于保留状态时创建的保留库) 。 将已删除的文档移动到保留库时,随机生成的唯一 ID 将追加到文档的原始文件名中。 例如,如果文档的文件名为 FY2017Budget.xlsx ,并且该文档后来被删除并移动到保留库,则移动到保留库的文档的文件名将修改为类似 FY2017Budget_DEAF727D-0478-4A7F-87DE-5487F033C81A2000-07-05T10-37-55.xlsx的内容。 如果保留库中的文档与内容搜索的查询匹配,并且您导出了该搜索结果,则导出的文件具有修改后的文件名;在此示例中,导出文档的文件名为 FY2017Budget_DEAF727D-0478-4A7F-87DE-5487F033C81A2000-07-05T10-37-55.xlsx

    当网站中保留的文档被修改 (并且) 启用了网站中文档库的版本控制时,将自动在保留库中创建文件的副本。 在这种情况下,随机生成的唯一 ID 也会追加到复制到保留库的文档的文件名。

    移动或复制到保留库的文档的文件名是为了防止文件名冲突。 有关对网站和保留库放置保留的详细信息,请参阅 SharePoint Server 2016 中的就地保留概述

其他

  • 使用电子数据展示导出工具下载搜索结果时,可能会收到以下错误: System.Net.WebException: The remote server returned an error: (412) The condition specified using HTTP conditional header(s) is not met. 这是暂时性错误,通常发生在 Azure 存储位置。 若要解决此问题,请重试 下载搜索结果,这将重启电子数据展示导出工具。
  • 所有搜索结果和导出报表都包含在与内容搜索同名的文件夹中。 已导出的电子邮件位于名为 Exchange 的文件夹中。 文档位于名为 SharePoint 的文件夹中。
  • 将文档导出到本地计算机时,将维护 SharePoint 和 OneDrive for Business 网站上的文档的文件系统元数据。 这意味着当文档被导出时,其文档属性,如创建日期和上次修改日期不会被更改。
  • 如果搜索结果包含 SharePoint 中与搜索查询匹配的列表项,则除了与搜索查询匹配的项和列表中的任何附件外,还将导出列表中的所有行。 此行为的原因是为搜索结果中返回的列表项提供上下文。 其他列表项和附件可能会导致导出项目的计数与搜索结果的原始估计值不同。