#

Fuzzy matching для поиска дубликатов номенклатуры (НСИ) с AI: технология нечеткого поиска

находит 95% дублей, которые не видит обычный поиск

автоматически находит опечатки, сокращения и ошибки

снижает затоваривание склада на 15-20% за счет чистых данных

Один менеджер вносит в систему позицию "Болт М8х20". Второй, используя латинскую раскладку, создает карточку "Болт M8x20". Третий для скорости пишет "болт м8*20". Для стандартной поисковой системы в 1С или CRM это три абсолютно разных товара. В результате в вашем справочнике появляются три дубликата, а компания закупает один и тот же болт трижды, не видя реальных остатков на складе.

Это не гипотетическая ситуация, а ежедневная реальность для многих коммерческих департаментов. Проблема в том, что стандартный поиск работает по принципу точного совпадения. Он не способен понять, что "Пистолет, 25 л/мин" и "Пистолет, 25 л/мин (НЕ ВЫБИРАТЬ)" - это один и тот же товар. Исследования показывают, что до 70% дубликатов в справочниках номенклатуры возникают из-за таких незначительных отличий. Эти, казалось бы, мелкие ошибки приводят к системным финансовым потерям - от лишних закупок и затоваривания склада до срыва поставок и неэффективной работы аналитических систем. 

Почему стандартный поиск в 1С и CRM не справляется с дубликатами 

Стандартные алгоритмы поиска, заложенные в большинство учетных систем, не обладают гибкостью. Они ищут точное, посимвольное совпадение, игнорируя контекст и человеческий фактор. Это приводит к тому, что огромное количество скрытых дублей остается незамеченным. 

Почему стандартный поиск в 1С и CRM не справляется с дубликатами 

Основные причины сбоев стандартного поиска: 

Опечатки и разная раскладка.

Система не поймет, что "подшипник" и "подшибник" - это один и тот же товар. Аналогично, она воспримет "Болт М8" (кириллица) и "Болт M8" (латиница) как две разные позиции.

Разные разделители и пробелы

Для системы 070 000 090 и 070000090 - это два уникальных артикула, хотя для человека очевидно, что это одна и та же номенклатура.

Сокращения и синонимы

Менеджер может написать "Клапан 1/4", а система не сопоставит это с уже существующей позицией "Клапан 1/4 дюйма".

Разный регистр

Позиции "винт" и "Винт" для многих систем не являются идентичными, что также способствует появлению дубликатов.

Каждая такая ошибка создает новую карточку товара. Со временем справочник превращается в набор разрозненных данных, работать с которым становится практически невозможно. Это не просто техническая проблема, а прямой источник убытков. 

Напишите нам, закажите консультацию

СВЯЗАТЬСЯ

Что такое Fuzzy Matching и как AI выводит его на новый уровень 

Fuzzy matching, или "нечеткий поиск", - это технология, которая ищет совпадения не по точному соответствию, а по степени "похожести". Алгоритмы анализируют строки текста, оценивая, насколько они близки друг к другу, даже при наличии опечаток, лишних символов или разного порядка слов.

Эта технология позволяет находить скрытые связи, которые упускает стандартный поиск. Однако настоящий прорыв происходит, когда к процессу подключается искусственный интеллект. AI не просто сравнивает строки, он понимает их смысл. Используя обработку естественного языка (NLP), система анализирует семантику наименований.

Именно на этой технологии построен ИИ-агент "Нормализатор НСИ". Он интегрируется с вашими учетными системами, такими как 1С и Битрикс24, и применяет продвинутые алгоритмы нечеткого поиска для системного анализа и очистки всего справочника номенклатуры. 

Как ИИ-агент "Нормализатор НСИ" находит и устраняет дубликаты 

Процесс работы агента разделен на несколько последовательных этапов, которые обеспечивают полный цикл очистки данных и поддержания порядка в дальнейшем. 

1. Глубокий аудит справочника

На первом этапе ИИ-агент подключается к вашей базе данных и проводит полный аудит номенклатуры. Он анализирует каждое наименование, используя комбинацию алгоритмов нечеткого поиска и NLP. Это позволяет выявить не только явные дубликаты, но и скрытые, например, когда один и тот же товар записан с использованием разных сокращений или единиц измерения. Система также находит "мусорные" пометки вроде "(архив)" или "(не использовать)", которые мешают корректной работе.

2. Формирование отчета и плана действий

По результатам аудита агент формирует детальный отчет. В нем перечислены все найденные группы дубликатов и предложены конкретные действия. Например, система рекомендует объединить несколько карточек, выбрав одну из них в качестве эталонной на основе полноты информации и истории операций. Также предлагается стандартизировать все наименования по единому формату, например, "Тип товара - Бренд - Модель - Ключевая характеристика".

3. Автоматическая очистка и стандартизация

После того как ответственный сотрудник утверждает предложенный план, ИИ-агент приступает к работе. Он автоматически сливает карточки-дубликаты, корректно перенося на эталонную карточку все складские остатки и историю документов (заказы, поставки, продажи). Некорректные и архивные позиции помечаются к удалению или переносятся в архив, а наименования и форматы артикулов приводятся к единому стандарту.

4. Постоянный контроль новых позиций

Первичная очистка решает проблему накопленных ошибок, но не защищает от появления новых. Поэтому после завершения основного этапа агент переходит в режим постоянного мониторинга (Watchdog). Он контролирует процесс создания новых номенклатурных позиций. Если менеджер пытается создать товар, который с высокой вероятностью уже есть в базе, система выдаст предупреждение: "Обнаружено совпадение на 98%. Вероятно, такой товар уже существует". Это предотвращает рост беспорядка и поддерживает чистоту данных на постоянной основе.

Напишите нам, закажите консультацию

СВЯЗАТЬСЯ

Технические особенности алгоритмов нечеткого поиска 

Эффективность fuzzy matching зависит от правильного сочетания нескольких алгоритмических подходов. ИИ-агент "Нормализатор НСИ" использует многоуровневую систему анализа, которая обеспечивает максимальную точность при минимуме ложных срабатываний. 

Технические особенности алгоритмов нечеткого поиска

Основные алгоритмы, применяемые в системе: 

Расстояние Левенштейна

Измеряет минимальное количество операций (вставка, удаление, замена символа), необходимых для превращения одной строки в другую. Это базовый алгоритм для выявления опечаток и небольших отклонений.

Jaccard Similarity

Оценивает схожесть наборов токенов (слов или символов), что особенно полезно при сравнении наименований с разным порядком слов или наличием дополнительных атрибутов.

N-gram подход

Разбивает строки на последовательности из n символов и сравнивает их распределение. Это позволяет находить совпадения даже при значительных структурных изменениях в наименовании.

Phonetic algorithms

Преобразуют текст в фонетическое представление, что критически важно для выявления дубликатов с ошибками в написании, но схожим звучанием (например, "подшипник" и "подшибник").

Ключевое преимущество ИИ-подхода - способность комбинировать эти алгоритмы адаптивно. Система автоматически выбирает наиболее подходящий метод для конкретной пары наименований, учитывая их структуру, длину и контекст. Например, для коротких артикулов эффективнее работает расстояние Левенштейна, а для длинных описаний товаров - комбинация N-gram и семантического анализа.

Кроме того, система учитывает специфические особенности вашей номенклатуры. Если в компании используется определенный формат артикулов или стандартные сокращения, ИИ обучается на этих паттернах и применяет их при сравнении. Это значительно снижает количество ложных срабатываний и повышает доверие пользователей к рекомендациям системы. 

Напишите нам, закажите консультацию

СВЯЗАТЬСЯ

Результаты внедрения - от разобщенных данных к управляемому активу 

Внедрение ИИ-агента "Нормализатор НСИ" обеспечивает системные изменения в управлении данными. Ваш справочник номенклатуры из источника проблем становится надежным инструментом для принятия решений. 

Было (без ИИ-агента)
Стало (с ИИ-агентом) 
Свыше 1500 дубликатов в базе
0 дубликатов и постоянный контроль
40 часов в месяц на ручную чистку
0 часов, процесс полностью автоматизирован
Затоваривание склада до 25%
Снижение затоваривания до 5-7%
15-20 ошибок в документах еженедельно
1-2 ошибки в месяц, связанные с другими причинами
Упущенные оптовые скидки 5-10%
Получение максимальных скидок за счет консолидации закупок
Поиск одной позиции 5-10 минут
Поиск одной позиции несколько секунд

Чистые и структурированные данные о номенклатуре - это фундамент для эффективной работы всей коммерческой экосистемы. Когда справочник в порядке, другие ИИ-агенты начинают работать на порядок точнее. Например, ИИ-агент "Агент по допродажам" строит рекомендации на основе достоверной истории покупок, а ИИ-агент "Консультант по подбору товаров" предлагает клиентам корректные позиции, исключая риск ошибки. 

Выводы

Неструктурированные справочники с тысячами скрытых дубликатов - это системная проблема, которая ежедневно приводит к прямым финансовым потерям. Продолжать работать с такими данными - значит сознательно игнорировать убытки и неэффективное использование оборотных средств.

Мы внедрим ИИ-агента "Нормализатор НСИ" в ваши системы 1С и Битрикс24. Он проведет полный аудит справочника с помощью технологии нечеткого поиска, выявит до 95% скрытых дубликатов и автоматически устранит их. Агент настроит единые стандарты для наименований и будет контролировать создание новых позиций, чтобы поддерживать порядок в данных постоянно.

В результате вы получите полностью прозрачные и достоверные данные о складских остатках, что позволит сократить затоваривание и оптимизировать закупки. Ваши менеджеры будут тратить секунды, а не минуты, на поиск нужных товаров, а аналитические системы начнут работать с корректной информацией.

Свяжитесь с нами, чтобы обсудить, как технология fuzzy matching может навести порядок в ваших справочниках. Мы проанализируем специфику вашей номенклатуры и предложим решение, которое устранит существующие проблемы и предотвратит их появление в будущем. 

НАПИШИТЕ НАМ

Будем рады оказаться полезными.