Post by Ruslan Tansorov

Project Manager | Monetization & Operations Focus

Как мы разметили 10 000 экзаменационных задач за полдня вместо двух недель: кейс Bilimdor.uz Во время разработки Bilimdor.uz — платформы для подготовки к DTM — мы столкнулись с на первый взгляд тривиальной проблемой. У нас уже было около 10 000 отсортированных экзаменационных задач, но у многих отсутствовали проверенные ответы. Самое очевидное решение — нанять студентов или преподавателей для ручной проверки и решения задач. Примерная оценка выглядела так: $100–150 только на старт, недели монотонной работы, нестабильное качество, и даже без полной уверенности в корректности. Вместо ручной разметки мы решили построить многоэтапный LLM пайплайн. Перед запуском пришлось отдельно заняться оценкой моделей. Для узбекского нельзя просто взять самую дешёвую модель и надеяться на хороший результат — риск галлюцинаций слишком высокий. Мы использовали бенчмарк uzlib от Tahrirchi для сравнения моделей именно на узбекском языке и подбирали оптимальный баланс между качеством, скоростью и стоимостью. Для тестирования моделей весь инференс мы проксировали через свой gateway балансирующий между OpenRouter и Azure. Сам pipeline выглядел так: - Дешевые модели выполняли массовое первичное решение задач. - Затем система судей сравнивала ответы разных моделей и оценивала уровень согласованности. - Спорные или низкоуверенные задачи автоматически эскалировались в более сильную reasoning-модель — Qwen 3.7 Max; дёшево и сердито, сравнительную таблицу прикрепил к посту. - Для точности в STEM-предметах флагманская модель дополнительно получила доступ к Python песочнице для проверки вычислений через код. - Для некоторых языковых нюансов узбекского языка дополнительно использовался API Tilmoch. - Для оркестрации пайплайна использовали LangGraph — он сильно упростил управление многоэтапной маршрутизацией, валидацией между моделями. В итоге: ~10 000 задач были обработаны и провалидированы примерно за полдня, общая стоимость inference составила около $50. Самое интересное — основной эффект дал не какая-то одна «волшебная» модель или промпт, а именно оркестрация: генерация → валидация → судейские оценки → эскалация в Qwen → вызов тулз. Стало очевидно, что LLM дают максимум пользы, когда вокруг них выстроена система — с инструментами, проверками и чёткой маршрутизацией между моделями. Будет интересно обсудить, часто ли в вашей работе с LLM и узбекским языком модели галлюцинировали и выдавали смесь тюркских языков?

Post content