Пример дедупликации данных справочника

Иногда в входном датафрейме могут быть данные неких справочников (мастер-данных), в уникальности идентификаторов (ключей) которых мы можем быть не уверены

Есть простой метод дедупликации (дедубликации) таких датафреймов:

# #Предположим в справочнике у нас 100% должны быть уникальными строки с кодом подразделения ("PodrazdCode") # В этом случае в ноде Execute Python Code вписываем вот такой вот программный код # (в вашем случае вместо PodrazdCode # - подставляете ваше наименование колонки, которая должна быть 100% уникальной) # deduplicate_columns = [ "PodrazdCode", ] df_in = df_in.drop_duplicates( subset=deduplicate_columns, keep="first", ) df_out = df_in