Контекст
Отделу продаж и поддержки нужно было разбирать сотни звонков в неделю: понимать темы обращений, выделять проблемные диалоги и считать качество работы менеджеров. Слушать вручную невозможно, готовые сервисы не давали нужной гибкости.
Решение
Звонки уходят в Whisper для транскрипции, затем LLM делает классификацию (категории + теги) и генерит короткое summary. Дешборд показывает звонки по менеджерам, статусам и темам; есть возможность прослушать оригинал и посмотреть полный transcript. Метки можно править вручную — они уходят в обучающий набор.
Стек и архитектура
- Backend: Spring Boot, Spring AI (OpenAI), MongoDB.
- Speech-to-text: Whisper (через Spring AI Transcription API).
- LLM: OpenAI (gpt-4-серии) для классификации и резюме.
- Frontend: Next.js, дешборд со списком, фильтрами и аудиоплеером.
- Хранение: транскрипты и теги — MongoDB; аудио — file-storage.
Роль и результат
Мы подняли пайплайн от приёма аудио до агрегатов по менеджерам и темам, спроектировали доменную модель транскриптов и тегов, реализовали UI кабинета. Аналитика, которая раньше была невозможна без штата прослушивающих, стала автоматической.