Какие форматы документов поддерживаются?

PDF, DOCX, XLSX, PPTX, TXT, CSV, Markdown и другие — всего более 12 форматов. Сканированные документы обрабатываются через встроенный OCR.

Как работает поиск — по ключевым словам или по смыслу?

По смыслу. Платформа использует семантический поиск: вы задаёте вопрос на обычном языке, а система находит релевантные фрагменты в документах и формирует ответ с указанием источников.

Поддерживает ли платформа работу с отсканированными документами?

Да. Встроенный OCR-модуль распознаёт текст из сканов и изображений. Поддерживаются наклонные тексты, таблицы, рукописный текст. После распознавания документы доступны для семантического поиска наравне с цифровыми.

Работает ли платформа с документами на русском языке?

Да. Используется мультиязычная модель эмбеддингов, оптимизированная для русского языка. Поиск понимает русскоязычные вопросы, синонимы, падежные формы и отвечает на том же языке, что и вопрос.

Чем istok.ai отличается от обычного поиска или ChatGPT?

В отличие от обычного поиска, istok.ai понимает смысл вопроса и находит ответ, даже если в документе нет точных слов из запроса. В отличие от ChatGPT, Исток работает только с вашими данными — не галлюцинирует, каждый ответ подкреплён точной цитатой и ссылкой на источник.

Сколько документов можно загрузить?

Зависит от тарифа. На бесплатном плане — до 10 документов. На профессиональном — до 1 000 документов. На корпоративном — без ограничений. Размер одного файла: до 10 МБ (бесплатный), до 100 МБ (профессиональный), до 500 МБ (корпоративный).

Можно ли развернуть платформу на наших серверах?

Да. Исток поддерживает on-premise развёртывание — данные остаются внутри вашей инфраструктуры. Также доступна облачная версия.

Соответствует ли платформа 152-ФЗ и GDPR?

Да. Данные хранятся на серверах в РФ, доступ контролируется ролевой моделью, все операции логируются. Платформа соответствует требованиям 152-ФЗ и GDPR.

Что входит в on-premise развёртывание?

Поставляем Docker-контейнеры: веб-приложение, API, векторная база данных, модель эмбеддингов, OCR-сервис, очередь задач. Всё устанавливается в вашем контуре — ни один запрос не выходит наружу. Требования к серверу согласуем при заявке.

Как устроена защита данных внутри платформы?

Все данные шифруются при передаче (TLS 1.3) и хранении. Ролевая модель изолирует проекты между командами. Аудит-лог фиксирует каждый запрос: кто, когда, что спросил и из какого документа получил ответ.

Можно ли разграничить доступ между сотрудниками?

Да. Поддерживаются роли: администратор, редактор, читатель. Каждый проект изолирован — сотрудник видит только те базы знаний, к которым ему открыт доступ.

Как быстро можно начать работу?

Регистрация занимает пару минут. Загрузите документы, и платформа автоматически проиндексирует их. После этого можно сразу задавать вопросы.

Сколько стоит использование?

Есть бесплатный тариф для начала работы. Профессиональный план — 7 990 ₽/мес (для специалистов и команд). Корпоративный — 39 990 ₽/мес (без ограничений, on-premise). Оплата в рублях, договор и счёт по запросу.

Есть ли пробный период на платных тарифах?

Бесплатный тариф работает без ограничения по времени — это и есть ваш пробный период. Вы можете оценить поиск, загрузку документов и качество ответов до перехода на платный план.

Как оформить договор и счёт для организации?

Напишите на sales@istok.ai или оставьте заявку через форму на сайте. Выставим счёт, подготовим договор с реквизитами ООО «ИСТОК», ИНН 7814862478. Оплата по безналичному расчёту.

Можно ли встроить платформу в нашу инфраструктуру?

Да. On-premise версия разворачивается в вашем контуре — Docker-контейнеры, ваши сервера, ваши данные. Сценарии интеграции с корпоративными системами обсуждаются индивидуально при заявке.

Какие интеграции поддерживаются?

GitHub и GitLab: автосинхронизация репозитория при каждом push, код-ревью на PR. 1С Enterprise: импорт конфигурации через ZIP. Telegram: подключение бота за один шаг. Webhook: отправка событий в любую внешнюю систему.

Есть ли API для интеграции с собственными системами?

Да, REST API доступен на профессиональном и корпоративном тарифах. Документация и примеры кода предоставляются после подключения. HMAC-подписанные запросы для безопасной интеграции.

Можно ли генерировать текст на основе загруженных документов?

Да. Платформа создаёт тексты, сводки, описания и брифы, опираясь на ваши документы. Ответы содержат ссылки на источники — вы всегда можете проверить, откуда взята информация.

Насколько точны ответы платформы?

Точность зависит от качества загруженных документов. Для хорошо структурированных баз знаний — 93–97% релевантных ответов по внутренним тестам. Каждый ответ сопровождается цитатой и процентом релевантности, что позволяет вам самостоятельно оценивать качество.

Что входит в техническую поддержку?

На профессиональном тарифе — поддержка по email в рабочее время. На корпоративном — SLA 99.9%, выделенный менеджер, поддержка 24/7, помощь при развёртывании и обновлениях.

Как часто выходят обновления платформы?

Облачная версия обновляется автоматически — без участия с вашей стороны. On-premise клиенты получают уведомления о новых версиях и инструкции по обновлению. Все обновления включены в стоимость тарифа.

AI-поиск по документам | Семантический поиск с цитатами

80% данных компании — в неструктурированных документах. istok.ai находит ответ за 2 секунды среди тысяч файлов: с точной цитатой, номером страницы и ссылкой на источник. Без галлюцинаций.

80% данных вашей компании лежат в неструктурированных документах. Отчёты, договоры, регламенты, переписки — всё это разбросано по папкам, дискам, почтовым ящикам. Среднестатистический knowledge worker тратит от 2 до 4 часов ежедневно на поиск нужной информации. Не на анализ, не на принятие решений — просто на поиск.

И это не абстрактная цифра. Для компании с 1 000 сотрудников при средней ставке ₽3 900/час это превращается в ₽2,4 млрд потерянной продуктивности в год. Добавьте сюда 45% решений, принятых на основе неполных или устаревших данных, — и масштаб проблемы становится осязаемым.

Почему традиционные решения не работают

Традиционный полнотекстовый поиск — Solr, Elasticsearch — работает по ключевым словам. Он не понимает синонимы, контекст и намерение. Релевантность такого поиска — 15–20%. Вы ищете «порядок согласования закупок свыше 500 тысяч рублей», а получаете все документы, где встречается слово «закупка».

Публичные LLM — ChatGPT, Gemini, Claude — решают другую проблему. Они генерируют текст, но не имеют доступа к вашим документам. Данные уходят во внешнее облако, что неприемлемо для регулируемых отраслей. А главное — они галлюцинируют: уверенно выдают несуществующие факты без каких-либо источников.

Что такое istok.ai и почему это не «ещё один чат-бот»

istok.ai — это enterprise RAG-платформа для семантического поиска по корпоративным документам. RAG (Retrieval-Augmented Generation) означает, что система сначала находит релевантные фрагменты в ваших документах, а затем формирует ответ строго на их основе. Каждый факт в ответе привязан к конкретному источнику: документ, номер страницы, процент релевантности.

Разница с обычным поиском — принципиальная. Вы задаёте вопрос на естественном языке, а не подбираете ключевые слова. Система понимает смысл: «Какой порог согласования для закупок?» и «Кто утверждает крупные покупки?» приведут к одному и тому же фрагменту регламента.

4 шага — от документа до точного ответа

01 · Загрузка

Перетаскиваете файлы в интерфейс или загружаете через REST API. Платформа принимает более 12 форматов: PDF, DOCX, XLSX, PPTX, CSV, TXT, HTML, Markdown и другие. Для сканированных документов работает встроенный OCR — платформа распознаёт текст из изображений.

02 · Индексация

Документ разбивается на смысловые блоки — не по фиксированному количеству символов, а по параграфам и логическим единицам. Каждый блок преобразуется в 768-мерный вектор с помощью мультиязычной модели. Одновременно строится гибридный индекс BM25 + векторный, что даёт лучшую точность, чем любой из подходов по отдельности.

03 · Вопрос

Вы вводите запрос на естественном языке. Система классифицирует намерение (FAQ, аналитика, факт, инструкция), расширяет запрос синонимами и выполняет гибридный поиск. Результаты проходят через cross-encoder reranking — нейросеть второго уровня, которая точнее оценивает релевантность каждого фрагмента.

04 · Ответ

LLM генерирует структурированный ответ с цитатами, ссылками на источники и процентом релевантности каждого использованного фрагмента. Ответ транслируется потоково (SSE) — вы видите текст по мере генерации. Встроенный анти-галлюцинационный фильтр проверяет соответствие ответа источникам.

Весь процесс занимает около 90 секунд от загрузки файла до первого точного ответа. Без настройки, без обучения модели, без привлечения ML-инженеров.

Каждое утверждение проверяемо

В отличие от универсальных LLM, istok.ai не отвечает «в целом». Каждый ответ разложен на факты, для каждого факта указан источник: название документа, номер страницы, конкретная цитата и процент релевантности.

Вы можете кликнуть на источник и сразу перейти к фрагменту в оригинальном документе. Полный аудит-лог запросов позволяет отследить, кто, когда и что спрашивал, и на каких документах строился ответ.

Для сложных вопросов работает многоступенчатый анализ: система разбивает запрос на подвопросы, ищет информацию по каждому из них и собирает связный ответ из нескольких источников.

Где это работает

Аналитика и BI — автоматическое извлечение инсайтов из финансовых отчётов, визуализация трендов, сравнительный анализ периодов. «Проанализируй динамику выручки по регионам за 4 квартала и выяви факторы роста.»

Маркетинг и контент — создание материалов на основе внутренних данных с соблюдением стиля бренда. «Создай презентацию о преимуществах продукта на основе исследования рынка.»

Автоматизация — мгновенный поиск по SOP, регламентам, процедурам, суммаризация договоров, проверка соответствия. «Какой порог согласования для закупок свыше 500К ₽?»

Безопасность — изолированная инфраструктура с полным контролем доступа и журналом каждого запроса. «Кто и когда обращался к документам договора №12345 за месяц?»

Точность 96%

В ходе пилотов на реальных корпусах документов (до 47 000 документов в индексе) точность ответов составила 96%. Это означает полную прослеживаемость от ответа до источника без галлюцинаций. Время ответа — менее 2 секунд, включая поиск по всему корпусу.

Начните с бесплатного пилота на 10 дней — мы развернём платформу на вашем корпусе документов и покажем реальный impact на ваших данных. Напишите на info@istok.ai или зайдите на istok.ai.

AI-поиск по документам — как перестать тонуть в корпоративных файлах