联接表列时,不再需要完全匹配。 模糊匹配使你可以比较不同列表中的项,并在它们相似时加入它们。 可以设置 相似性阈值来调整匹配的容差。
模糊匹配的常见用例是使用任意格式文本字段,例如,在调查中,答复可能有拼写错误、单数、复数、大写、小写和其他变体。
仅对文本列执行合并作时,才支持模糊匹配。 Power Query使用 Jaccard 相似性算法来度量实例对之间的相似性。
过程
-
若要打开查询,请找到以前从Power Query 编辑器加载的查询,在数据中选择一个单元格,然后选择“查询 > 编辑”。 有关详细信息,请参阅在 Excel (Power Query) 中创建、编辑和加载查询。
-
选择“主页 > 合并 > 合并查询”。 还可以选择“ 合并查询”作为“新建”。 此时将显示“合并”对话框,其中主表位于顶部。
-
选择要用于模糊匹配的列。 在此示例中,我们选择“名字”。
-
从下拉列表中选择辅助表,然后选择相应的模糊匹配列。 在此示例中,我们选择“名字”。
-
选择“联接类型”。 有几种不同的加入方式。 左外部 是默认值,也是最常见的。 有关每种类型的联接的详细信息,请参阅合并查询。
-
选择“ 使用模糊匹配执行合并”,选择“ 模糊匹配选项”,然后 从以下选项中进行选择:
-
相似性阈值 指示两个值需要多相似才能匹配。 最小值 0.00 会导致所有值相互匹配。 最大值 1.00 仅允许完全匹配。 默认值为 0.80。
-
忽略大小写 指示是应以区分大小写还是不区分大小写的方式比较文本值。 默认行为不区分大小写,这意味着忽略大小写。
-
最大匹配数 控制将为每个输入行返回的最大匹配行数。 例如,如果只想为每个输入行查找一个匹配行,请将值指定为 1。 默认行为是返回所有匹配项。
-
转换表 指定另一个包含映射表的查询,以便某些值可以作为匹配逻辑的一部分自动映射。 例如,使用值为“Microsoft”和“MSFT”的“From”和“To”文本列定义两列表将使这两个值被视为相同的 (相似性分数 1.00) 。
-
-
Power Query分析这两个表,并显示一条消息,说明它进行了多少匹配。 在此示例中,所选内容与第一个表中的 4 行中的 3 行匹配。 如果不使用模糊匹配,则只有 4 行中的 2 行匹配。
-
如果满意,请选择“确定”。 如果没有,请尝试不同的模糊合并选项 来自定义体验。
-
如果满意,请选择 “确定”。