Глоссарий

Агрегированные данные

Информация, которую компания собирает из нескольких источников и объединяет в сводные отчеты. Собранная информация может быть как числовой, так и нечисловой.

При формировании агрегированных данных для их анализа обязательно обеспечивают их полноту, актуальность и надежность:

  1. Данные собираются из нескольких источников, например, из баз данных, электронных таблиц и пр.

  2. Данные подвергаются предварительной обработке для устранения ошибок и недопустимых значений.

  3. Обработанные данные объединяются в единый набор данных, удобный для восприятия и анализа. (При необходимости группируется, сортируется, превращается в некие “сводные” данные).

Основной целью агрегации является упрощение анализа данных. При анализе агрегированных данных легче выявить те моменты, которые было бы трудно обнаружить в необработанных, сырых данных. Агрегированные данные легче анализировать, читать и понимать, чем необработанные.

Грубо говоря, агрегированные данные – это усредненные данные по некоторым показателям. К основным агрегациям относятся количество данных, сумма значений, среднее значение, максимальное и минимальное значения. Приведем пример. Допустим, у нас есть список имен сотрудников фирмы, тогда сможем вычислить наиболее часто встречающееся имя.


Витрина данных

Место, где хранятся и организуются данные, чтобы их было легко найти и использовать. Представьте себе витрину в магазине, где все товары аккуратно разложены и подписаны. Витрина данных работает так же, только вместо товаров там данные, которые можно быстро найти и использовать для анализа или отчетов.


Датасет (Dataset)

Обработанный и структурированный массив данных, в котором у каждого объекта есть конкретные свойства: признаки, связи между объектами или определённое место в выборке данных.


Дашборд

Экран или страница, на которой собрана важная информация в виде графиков, таблиц и других визуальных элементов. Он помогает быстро понять текущую ситуацию и принять решения.


Денормализация данных

Процесс намеренного приведения базы данных к виду, не соответствующему критериям нормализации. Обычно денормализация проводится с целью ускорения чтения данных из базы данных за счет привнесения избыточных данных.


Измерение

Измерение, в разрезе которого мы оцениваем данные, означает способ, которым мы анализируем и рассматриваем информацию. Например, если у нас есть данные о продажах, мы можем оценивать их по разным измерениям: по времени (месяц, год), по регионам (города, страны) или по категориям товаров. Это помогает лучше понять и организовать информацию.


Инициализация

В широком смысле, это процесс подготовки чего-либо к использованию. Например, когда вы включаете компьютер, он проходит через инициализацию, чтобы подготовить все системы и программы к работе. Это как разогрев перед тренировкой: вы готовите своё тело к нагрузке, так и компьютер готовит свои компоненты к работе.


Инкрементальная выгрузка

Процесс обновления данных, при котором выгружаются только те данные, которые изменились с момента последней выгрузки. Это позволяет экономить время и ресурсы, так как не нужно заново выгружать все данные, а только новые или измененные.


Исторические данные

Первичные данные базы данных. Выгрузку исторических данных также называют исторической выгрузкой.


Ключ сегментирования

Набор параметров сегментирования в совокупности с применяемыми к ним функциям (функцией параметра сегментирования может являться любая указанная функция).


Маппинг данных

Процесс сопоставления данных из одного источника с данными из другого источника. Это нужно для того, чтобы данные из разных систем могли быть правильно поняты и использованы вместе. Например, если у вас есть информация о клиентах в одной программе и информация о продажах в другой, маппинг данных поможет связать эти данные, чтобы вы могли видеть полную картину.


Многопоточность

Программистский термин, применяемый для описания нескольких параллельно выполняющихся в программе процессов. В данном случае, логически процесс один — идет выгрузка данных, но выполняется он сразу в нескольких потоках параллельно. Многопоточность увеличивает скорость того, что делает программа, выгружает ли она данные, или выполняет какие-то другие рабочие процессы.


Набор данных

Данное понятие в рамках Экстрактора 1С имеет два значения:

  • результат запроса к 1С;

  • Выбранный интерактивно объект базы 1С, или любой другой допустимый набор данных (Excel, CSV, Обработчик).


Нормализация данных

Процесс приведения данных к виду, обеспечивающему защиту данных и делающий базу данных, в которой находятся данные, более гибкой. Нормализация устраняет избыточность и несогласованные зависимости, приводящие непродуктивному использованию дискового пространства и затруднению обслуживания данных.


Нормальные формы

Наборы правил и критериев, которым должна соответствовать база данных. Каждая следующая нормальная форма содержит более строгие правила и критерии, что в конечном итоге приводит базу данных к нормальной форме. В Экстракторе 1С используются три нормальные формы:

Первая нормальная форма (1NF) – базовый уровень нормализации данных в СУБД. В 1NF каждая ячейка таблицы имеет только одно значение, а каждый столбец – уникальное имя, что позволяет упростить запросы и исключить дублирование данных.

Вторая нормальная форма (2NF) – уровень нормализации данных в СУБД, где таблица должна иметь правильный ключ, идентифицирующий каждую запись. Для приведения БД к 2NF необходимо, чтобы она соответствовала 1NF.

Третья нормальная форма (3NF) – уровень нормализации данных в СУБД, расширяющий 2NF, гарантируя функциональность и независимость неключевых атрибутов.


Обработчик события проекта (Обработчик)

Программный код (предопределенный, или созданный вами самостоятельно), который выполняется на определенных этапах (в момент определенного события) проекта. В Экстракторе 1С есть много разных обработчиков, уже запрограммированных для Вас, они называются «Предопределенные обработчики».


Очередь выгрузки

Информация о своего рода пакетах, готовых к выгрузке. Здесь содержится информация о том, какие партиции данных надо выгрузить. Если это очередь выгрузки, сформированная сразу после настройки, то это первоначальная очередь выгрузки. Первоначальная очередь выгрузки содержит в себе все партиции данных (чтобы выгрузить первоначально все наборы данных проекта целиком и создать из них таблицы базы данных). В последствии, когда проект начнет работать по расписанию, в очередь будут попадать лишь те партиции данных, в которых возникли изменения.


Параметры сегментирования

Набор параметров для сегментирования, например [Период,Склад]. Параметры сегментирования задаются либо в запросе, если вы сами составляли запрос, либо на этапе установки параметров при проектировании выгрузки конструктором (Этап 3). Начиная с релиза 3.8.4.70, были добавлен режим расширения параметров и, в связи с этим, добавлены следующие виды параметров:

  • Параметр инициализации — это группа параметров, которая используется при инициализации проекта (по кнопке «Сформировать очередь»), например период в месяц.

  • Регулярный параметр — это основной вид параметров, которые используются при выгрузке (при отсутствии вида параметра является значением по умолчанию), примером могут служить период длиною в день, ссылка или регистратор.

  • Расширенный параметр — это группа параметров, которая заменяет регулярные параметры, если число записей в очереди по регулярному сегменту (например, по регистратору) в рамках одного расширенного сегмента (например, дня, в который входят эти регистраторы), превышает установленное значение настройки «Количество записей очереди для расширения параметров».


Партицирование (партиции)

Партицирование — функция, которая позволяет физически разбивать большие таблицы на несколько файлов на диске, исходя из выбранных критериев, благодаря чему улучшается производительность базы данных. Партиционирование поддерживается для СУБД PostgreSQL и Clickhouse (из тех СУБД, что мы поддерживаем).

Партиция — физическая часть таблицы данных, выделенная для удобства хранения и обработки в памяти и состоящая из смежных блоков. Поэтому таблица, которая была разбита на партиции, называется партицированной.


Показатели

Числовые данные, которые помогают оценить, насколько хорошо работает компания или проект. Они могут включать в себя такие данные, как прибыль, количество клиентов, уровень продаж и другие важные числовые показатели. Эти данные используются для анализа и принятия решений.


Поток

Программистский термин, применяемый для описания выполняющегося в программе процесса.


Проект

Основной объект «Экстрактора 1С», с помощью которого проектируются выгрузки. Проект включает в себя все настройки, которые необходимы для выгрузки одного или нескольких наборов данных из различных источников в одну базу данных.

Важно!

Нельзя создать проект, который бы выгружал данные в разные базы одновременно.


Расписание выгрузки

Расписание, согласно которого, будут происходить регламентные выгрузки тех данных, которые накопились в очередь выгрузки.


Сегмент

Блок таблицы данных, полученный путем отбора строк из первоначального набора данных по заданному уникальному значению ключа сегментирования. Сегментирование данных происходит путем логического деления данных на блоки (в отличие от партицирования, где деление таблицы данных происходит физически). Деление на сегменты позволяет удалить соответствующую группу записей и заменить ее на новые, обеспечивая инкрементальность данных.


Строка проекта

Строка табличной части проекта. Она содержит информацию о том, какой набор данных должен выгружаться в рамках данного проекта. В строке проекта также хранятся дополнительные настройки для выгрузки данные: каким способом будут выгружаться, каким способом будут обновляться и тд. Один набор данных всегда выгружается в одну и только одну таблицу базы данных. Имя таблицы так же хранится в строке проекта и видно пользователю в окне проекта.


СУБД (Система Управления Базами Данных)

Набор инструментов, которые позволяют удобно управлять базами данных: удалять, добавлять, фильтровать и находить элементы, менять их структуру и создавать резервные копии. СУБД служит посредником между пользователем и базой данных (БД). Сама структура БД хранится в виде набора файлов, и единственный способ получить доступ к данным в этих файлах – через СУБД.


СУБД REDIS (REmote DIctionary Server)

Нереляционная резидентная система управления базами данных (СУБД) с открытым исходным кодом. Она хранит данные в виде пар «ключ — значение». Redis работает с различными типами данных, такими как строки, списки, хеши и множества.

Эта СУБД отличается повышенной производительностью за счёт того, что данные хранятся прямо в оперативной памяти сервера.

Redis применяется для:

  • хранения сессий пользователей, фрагментов страниц сайтов и других элементов;

  • хранения таких типов данных, как сообщения на стене пользователей в соцсетях, голосования, результаты в табличном виде;

  • создания новостных лент, групповых чатов, блогов;

  • кэширования данных;

  • хранения данных, к которым требуется предоставлять быстрый доступ.

Данная СУБД использована в Экстракторе 1С как система «внешней» очереди регистрации изменений.


СУБД ClickHouse

Колоночная (столбцовая) аналитическая СУБД с открытым кодом. Позволяет выполнять аналитические запросы в режиме реального времени на структурированных больших данных.

Есть несколько версий Clickhouse, поддерживаемых и развиваемых независимыми коммерческими организациями, в частности:

Преимущества ClickHouse:

  • обладает высокой скоростью обработки запросов;

  • колоночная архитектура, используемая в ClickHouse, оптимизирует объём хранимых данных, снижая затраты на инфраструктуру.

  • поддерживает декларативный язык запросов на основе SQL, что упрощает внедрение ClickHouse в существующую экосистему;

  • поддерживает OLAP-аналитики. ClickHouse разработан для работы с оперативными аналитическими задачами, включая генерацию отчётов, мониторинг ключевых метрик и моделирование на основе больших данных.


Сырые данные

Неупорядоченные, необработанные данные, поступающие из разных источников. Они могут быть в любом формате, количестве, могут иметь множество дубликатов. Т.е. сырые данные – это поток информации, поступающий на вход чего-либо. Обычно сырые данные имеют огромные объемы и в таком случае они обозначаются термином Big Data. В качестве примера сырых данных можно привести логи веб-сайта: информации много, она беспорядочная, но из этого хаоса можно выудить нужное.


Уникальные значения ключа сегментирования

Значения, которые попадают в очередь выгрузки и отображаются в поле «Партиция». В каждой строке очереди содержится набор тех значений, которые присваиваются параметрам сегментирования при выборе данных из 1С для каждого отдельного уникального сегмента.


Чарт

График или таблица, которые показывают данные в наглядной форме. Например, чарт может показать, как изменялись продажи товаров за год или какие песни были самыми популярными в определённый период.


Экстрактор 1С

ETL-инструмент, позволяющий просто и без участия программиста выгружать данные из баз 1С в любую аналитическую систему. Гибкие настройки позволяют извлечь любую информацию из программы и настроить автоматическую выгрузку по удобному расписанию.


BI-система

Программное решение для сбора, обработки и визуализации данных. Оно преобразует большие массивы информации в удобные для восприятия отчеты и аналитические панели. Такие системы интегрируются с различными источниками данных, включая базы данных, ERP и др., предоставляя комплексный подход к работе с информацией.


CDC (Change Data Capture)

В переводе с английского «Система отслеживания изменений». Технология, которая позволяет отслеживать изменения в данных, происходящие в базе данных, и передавать их в целевые системы в режиме реального времени или близком к нему.

Сбор данных CDC может осуществляться:

  • На основе данных (отслеживания изменений основано на том, что в базе данных, в отслеживаемых таблицах, есть поле с счетчиком или штампом времени);

  • На основе триггеров (отслеживания изменений основано на работе специальных программных модулей (триггеров), которые следят за изменением связанной с данным триггером таблицы);

  • На основе чтения журнала (лога) транзакций СУБД (отслеживания изменений основано на чтении “Лога транзакций”, который есть в большинстве СУБД).


ERP (Enterprise Resource Planning)

Комплексная программа для управления всеми бизнес-процессами в компании. Она обеспечивает централизованный сбор информации в единое безопасное хранилище, объединяет продажи, закупки, бух.учет, производственные и управленческие процессы.


ETL (Extract, Transform, Load)

Трехэтапный процесс управления данными. Дословно:

  • Извлечение (Extract): данные собираются из разных источников (например, из баз данных, обширных наборов неупорядоченных данных и др.);

  • Трансформация (Transform): данные очищаются, нормализуются и преобразуются для обеспечения консистентности (например, имена могут быть приведены в один формат, а адреса — стандартизированы);

  • Загрузка (Load): очищенные и трансформированные данные загружаются в целевую систему для дальнейшего анализа и отчетности.


GUID (Globally Unique Identifier)

В широком смысле, это статистически уникальный 128-битный идентификатор. Его главная особенность — уникальность, которая позволяет создавать расширяемые сервисы и приложения без опасения конфликтов, вызванных совпадением идентификаторов.

GUID в 1С — это объект матричной таблицы в системе базы данных из шестнадцатеричных символов, заключенных в круглые скобки и прописанных через дефис, который формируется в момент создания объекта с учётом времени и места, указывающего на расположение объекта (справочника, документа). Первая половина кода является расчётом времени, вторая — местом, где хранится объект.


Power BI

Набор программных сервисов Microsoft для бизнес-аналитики. Они работают вместе, превращая несвязанные источники данных компании в целостные интерактивные отчёты.

Платформа Power BI позволяет аккумулировать и структурировать данные из разных источников, преобразовывая их в единый формат. Затем из данных можно создавать визуализации различного типа и объединять их в интерактивные отчёты для наглядного анализа. Отчёты можно персонализировать по желаемым показателям.


SQL (Structured Query Language)

В переводе с английского «Язык структурированных запросов». Язык программирования, предназначенный для управления данными в СУБД.

С помощью SQL можно:

  • добавлять и читать данные;

  • удалять и обновлять записи в таблицах;

  • создавать и редактировать сами таблицы;

  • производить операции над данными: считать сумму, получать самое большое или малое значение и так далее;

  • настраивать работу сервера СУБД.

Популярные команды SQL:


Visiology BI

Российская платформа для бизнес-анализа с использованием интерактивных дашбордов и автоматизированного сбора больших объёмов данных. Она предоставляет инструменты для создания, анализа и представления информации в виде графиков, диаграмм, карт и других визуальных элементов.


Yandex Datalens

Сервис для бизнес-аналитики от Yandex Cloud. Он позволяет подключаться к различным источникам данных, строить визуализации, собирать дашборды и делиться полученными результатами. С помощью Yandex DataLens можно отслеживать продуктовые и бизнес-метрики напрямую из источников, чтобы принимать решения, основанные на данных.