KZ_Scriptur by Speech Lab
Распознавание казахской, русской и смешанной казахско-русской речи для реальных разговоров.
Scriptur by Speech Lab — это модель распознавания речи, созданная командой KazDream и обученная на том, как люди говорят в жизни: быстро, с неидеальной дикцией, часто смешивая языки и используя некачественное соединение сети. Модель хорошо работает с казахской и русской речью, уверенно распознаёт смешанные фразы и сохраняет логику диалога даже в шумных телефонных разговорах.
Преимущества
Scriptur by Speech Lab распознает
казахскую, русскую и казахско-русскую речь - в естественных разговорных ситуациях
В живой речи языки постоянно смешиваются. Фразы обрываются, слова проглатываются, собеседники перебивают друг друга. Люди говорят естественно, не задумываясь о правилах и не подстраиваясь под технологию.
Scriptur by Speech Lab рассчитана именно на такие разговоры. Модель не пытается "исправить" речь или загнать её в стандартные рамки —вместо этого она адаптируется к реальному языковому поведению.
Code-switching
Корректно распознаёт казахско-русскую речь внутри одного предложения без потери контекста
Структура диалога
Сохраняет логику беседы и естественный поток разговора
В результате расшифровка выглядит как нормальный разговор, а не как машинный лог. Текст можно сразу использовать для аналитики, обучения или архивирования без дополнительной обработки.

Обучение на живых данных
В основе модели — анализ более 10 000 часов реальных разговоров. Это не студийные записи с профессиональной дикцией, а настоящие диалоги со всеми их особенностями:
  • Звонки колл-центров с разным качеством связи
  • Разные акценты и диалекты казахского языка
  • Плохая связь, фоновые шумы и телефонная компрессия
  • Эмоциональная речь, быстрый темп, паузы и заполнители
При обучении учитывались 42 типа искажений, характерные для телефонных сетей. Поэтому модель стабильно работает в сложных условиях — там, где другие системы начинают терять точность.

Быстродействие и устойчивость
Высокая точность распознавания бесполезна, если система не справляется с нагрузкой или задерживает ответ. Scriptur by Speech Lab спроектирована для промышленного использования:
200
Секунд аудио в 1 секунду
Обработка в режиме реального времени с запасом производительности
99.99%
Uptime
Стабильная работа при высокой нагрузке и пиковых значениях
Метрики
Ключевые цифры и как их читать

WER (Word Error Rate) — это показатель ошибок распознавания речи. Он показывает, какая доля слов в расшифровке была распознана неверно. Чем ниже значение WER, тем точнее работает модель.
Результаты на реальных датасетах
Мы сравнили Scriptur by Speech Lab с одной из самых популярных открытых моделей — Whisper Turbo от OpenAI. Тестирование проводилось на трёх типах речи: чистый казахский, смешанный казахско-русский и чистый русский. Все тесты использовали реальные разговорные записи, а не подготовленные студийные данные.
Что это означает на практике
Разница в WER между моделями может показаться небольшой числом, но в реальном использовании это критично:
  • Существенно меньше искажений смысла на казахской речи — почти в 15 раз точнее
  • Заметно более стабильное распознавание при смешении языков — в 5 раз лучше
  • Более читаемые и пригодные для анализа транскрипты без лишнего редактирования
  • Возможность использовать результаты распознавания напрямую в аналитике и бизнес-процессах

Технические характеристики
Обучающие данные
~10 000 часов реальных разговоров с разметкой
Типы искажений
42 типа искажений телефонного аудио учтены при обучении
Языковая поддержка
15 языков с фокусом на казахский и русский
Развёртывание
Cloud, on-premises, hybrid — на ваш выбор
Применение
Как выглядит на практике
Scriptur by Speech Lab используют там, где важна точность распознавания и устойчивость к сложным условиям. Модель одинаково уверенно работает с плохим звуком, перебивками и смешанной речью — независимо от отрасли и сценария применения.
Колл- и контакт-центры
Автоматическая расшифровка звонков для контроля качества, обучения операторов и анализа клиентских обращений. Работает в режиме реального времени и с архивными записями.
Банки и финансовые сервисы
Распознавание и анализ телефонных консультаций, выявление рисков и соответствие регуляторным требованиям. Поддержка on-premises для контроля над данными.
Государственные горячие линии
Обработка большого потока обращений граждан, создание текстовых архивов для анализа и статистики, многоязычная поддержка.
Медиа-архивы и аналитика
Индексация аудио- и видеоконтента, создание субтитров, поиск по речи. Особенно эффективно для казахоязычного контента.
Образовательные платформы
Автоматическая расшифровка лекций и семинаров, создание текстовых материалов, поиск по образовательному контенту на казахском языке.
Телемедицина и здравоохранение
Документирование консультаций, создание медицинских записей, анализ качества пациент-ориентированного обслуживания.

Технологии
Технологическая основа
Scriptur by Speech Lab построена на современном стеке технологий машинного обучения, адаптированном под специфику казахского языка и смешанной речи. Архитектура модели сочетает несколько компонентов, каждый из которых решает свою задачу в цепочке обработки.
Эта многоступенчатая архитектура позволяет извлечь максимум информации из аудиосигнала, сохранить смысл и структуру речи, а затем представить результат в удобном для дальнейшей работы формате.

Conformer Encoder
Извлекает акустические признаки из аудиосигнала, учитывая контекст и временные зависимости
Whisper-Turbo Decoder
Преобразует признаки в текст, сохраняя языковую структуру и семантику
LLM Post-processing
Улучшает читаемость, исправляет очевидные ошибки, нормализует формат

Дополнительные возможности
Структурированный вывод
JSON-формат с мета-информацией, готовый к интеграции
Domain Adaptation
Возможность дообучения под конкретную отрасль или терминологию
API Integration
REST API и WebSocket для интеграции в существующие системы
Batch Processing
Эффективная обработка больших архивов аудиозаписей
История проекта
Немного истории
Работа над Speech Lab началась с простой задачи — сделать распознавание казахской речи по‑настоящему надёжным. В 2020 году на рынке не было решений, которые бы стабильно работали с живой казахской речью в условиях телефонных звонков.
Команда Kazdream начала с нуля: собирала собственные датасеты, вручную размечала тысячи часов аудио, проверяла каждую гипотезу на реальных звонках. Первые версии модели показывали обнадёживающие результаты, но до промышленного качества команда прололжала улучшать модель.
Сегодня Scriptur by Speech Lab достигла точности 92% на казахском языке и 95% на русском — результаты, которые делают её одной из лучших моделей для этих языков в регионе.

1
2018 — Первые эксперименты
Сбор данных, тестирование базовых ASR-подходов, формирование команды и видения проекта
2
2019 — Первый прототип
Запуск пилотных проектов с казахстанскими компаниями, сбор обратной связи, расширение датасета
3
2021 — Архитектурный переход
Переход на архитектуру Conformer, улучшение работы со смешанной речью, рост точности
4
2023 — Промышленное качество
Интеграция Whisper и LLM-постобработки, достижение enterprise-уровня стабильности
5
2025 — Масштабирование
Улучшение всех типов показателей, готовность к развёртыванию в крупных организациях, расширение языковой поддержки, on-premises варианты

Со временем архитектура эволюционировала от ранних ASR-подходов к современным моделям на базе Conformer и Whisper. Каждая итерация улучшала не только точность, но и понимание того, как люди реально говорят — с перебивками, паузами, эмоциями и смешением языков.
Сегодня Speech Lab — это зрелая технология, которая продолжает улучшаться по мере накопления новых данных и сценариев использования. Команда постоянно собирает обратную связь от пользователей, анализирует сложные случаи и расширяет возможности модели.
Почему выбирают Scriptur by Speech Lab
На рынке есть множество решений для распознавания речи — от крупных облачных сервисов до специализированных моделей. Speech Lab выделяется фокусом на казахском языке и реальных сценариях использования.
Лучшая точность для казахского
Одна из самых точных ASR-моделей для казахского языка по результатам независимых тестов на реальных данных
Code-switching как норма
Уверенная работа со смешанной казахско-русской речью без потери контекста и смысла
Устойчивость к шумам
Стабильное распознавание в условиях шумного и сжатого телефонного аудио
От пилота до enterprise
Масштабируемость от небольших тестовых проектов до промышленных развёртываний
Контроль над данными
Возможность on-premises развёртывания для полного контроля над конфиденциальной информацией
Локальная поддержка
Команда разработки и поддержки, понимающая специфику казахстанского рынка и языковой ситуации

«Выбор технологии распознавания речи — это не только про точность метрик. Это про понимание языка, культуры, реального контекста использования. Speech Lab создана командой, которая живёт в этом контексте каждый день.»
Интересно
Интересные факты о Scriptur by Speech Lab
За технологией стоят годы исследований, сотни экспериментов и тысячи часов работы. Вот несколько фактов, которые показывают, как создавалась модель и что делает её особенной.
1
Реальные разговоры, а не дикторы
Большая часть обучающих данных — это записи настоящих диалогов со всеми их особенностями: паузами, заполнителями, перебивками, эмоциями. Никаких идеальных студийных записей.
2
42 типа искажений
Модель обучалась с учётом 42 типов искажений, которые встречаются в телефонных сетях: от компрессии кодеков до эха и фоновых шумов.
3
Code-switching как норма
Смешение языков не рассматривается как исключение или ошибка — это базовый режим работы модели, заложенный на этапе проектирования.
4
Казахский с первых версий
Архитектура оптимизировалась под казахский язык с самых ранних версий, а не адаптировалась постфактум из универсальной модели.

Развитие датасета
За годы работы команда собрала один из крупнейших размеченных датасетов казахской речи. Каждая новая запись проходит несколько этапов проверки качества, прежде чем попасть в обучающую выборку.
Датасет включает разные диалекты, возрастные группы, социолекты и профессиональные жаргоны. Это позволяет модели уверенно работать с речью самых разных людей.
Миссия
Создавать технологии для живого языка
Создавать технологии распознавания речи, которые одинаково точно работают с казахским языком и живой повседневной речью — такой, какой она звучит в реальных разговорах, звонках и диалогах.

Наша цель — чтобы казахский язык чувствовал себя в цифровых сервисах естественно и уверенно, без искажений смысла и потери нюансов. Технологии должны адаптироваться к языку, а не наоборот.
Мы верим, что качественное распознавание речи — это не просто техническая задача. Это вопрос сохранения и развития языка, доступности информации, равенства возможностей.
Когда казахский язык работает в цифровых системах так же хорошо, как английский или китайский, это открывает новые возможности для бизнеса, образования, государственных сервисов.
Speech Lab — это наш вклад в будущее, где технологии говорят на языках людей, а не заставляют людей подстраиваться под технологии.

Языковое равенство
Все языки заслуживают одинаково качественной технологической поддержки
Доступность
Технологии должны быть доступны всем, независимо от языка общения
Точность без компромиссов
Высокое качество распознавания — не привилегия, а стандарт для всех языков
Вызов
Вызов рынку
Современные системы распознавания речи, как правило, разрабатываются на базе универсальных языковых моделей и затем масштабируются на десятки языков. Это разумный подход с точки зрения экономики разработки — создать одну большую модель и адаптировать её под разные рынки.
Такой подход хорошо работает для стандартных и формализованных сценариев: дикторская речь, подготовленные тексты, контролируемые условия записи. Но в живой речи — с быстрым темпом, смешением языков и особенностями локального контекста — точность заметно снижается.

Проблема универсальных моделей
  • Обучение на преимущественно англоязычных данных с последующей адаптацией
  • Недостаток реальных примеров смешанной речи в обучающих данных
  • Оптимизация под "чистую" речь, а не под реальные разговоры
  • Игнорирование локальных особенностей произношения и диалектов
Подход Speech Lab
  • Проектирование с учётом особенностей казахского языка с первого дня
  • Обучение на реальных разговорах, а не на синтетических данных
  • Code-switching как базовый режим работы, а не исключение
  • Локальный контекст: акценты, диалекты, особенности речи

«Универсальность хороша до того момента, пока не упирается в специфику. Для казахского языка и казахстанского рынка нужны решения, которые понимают локальный контекст на уровне архитектуры, а не постобработки.»
Speech Lab изначально проектируется с учётом этих особенностей и опирается на локальные данные, реальные разговоры и практические сценарии использования. Это не адаптация чужой технологии — это технология, созданная для конкретного языка и рынка.
Speech Lab by Kazdream
Распознавание речи
для живого языка
Технология, которая понимает, как люди говорят в повседневной жизни.

Точность
WER 0.18 на казахском языке
Скорость
200 секунд аудио за секунду
Надёжность
99.99% uptime в production

Свяжитесь с командой Kazdream, чтобы узнать больше о Scriptur by Speech Lab, запросить демонстрацию или обсудить интеграцию в ваш проект.
Контакты
Свяжитесь с нами
Наша команда готова ответить на ваши вопросы, провести демонстрацию Speech Lab ASR или обсудить возможности сотрудничества.

Общие вопросы и поддержка
Электронная почта: info@kazdream.kz
Наше расположение
Адрес: г. Астана, ул. Момышулы 2/1
Офис открыт: Пн-Пт, 9:00 - 18:00
Мы всегда рады личному общению и сотрудничеству!