Post by Baran KAYA
Software & Solution Architect | AI Agent Systems | MCP
Türkçe prompt yazmak daha fazla token mu harcar? Evet. Araştırmalarla kanıtlanmış. Neden? Tüm büyük modeller İngilizce ağırlıklı eğitildi. Türkçe aglutinatif bir dil ekler zincirleniyor. "Evlerden" = ev + ler + den Tokenizer bunu parçalara bölerken İngilizce'ye göre çok daha fazla token üretiyor. Araştırmalar ne diyor? ICML 2025 -> 70 dil üzerinde yapılan çalışma tokenizer'ların Türkçe ve Korece'de özellikle verimsiz çalıştığını buldu. ACM 2023 -> Türkçe özelinde araştırma İngilizce'ye kıyasla ciddi token verimsizliği saptadı. Llama 3 eğitim datasının %95'i İngilizce ve koddan oluşuyordu. GPT, Claude, Gemini hepsi aynı sorunu yaşıyor. Token tasarrufu sıralaması: En az -> Prompt İngilizce + Çıktı İngilizce Orta -> Prompt İngilizce + Çıktı Türkçe En çok -> Prompt Türkçe + Çıktı Türkçe Hangisini seçmelisin? Teknik iş, kod, analiz -> her şeyi İngilizce yap Müşteri metni, Türkçe doküman -> çıktıyı Türkçe iste Dil seçimi artık sadece tercih değil maliyet kararı. Kaynaklar: -> https://lnkd.in/dNz83fCa -> https://lnkd.in/dHrgMqj9 -> https://lnkd.in/da3kJ9ZV ───────────────────────── Does writing prompts in Turkish burn more tokens? Yes. Backed by research. Why? All major models were trained primarily on English. Turkish is agglutinative suffixes chain together. "Evlerden" = ev + ler + den (from the houses) Far more tokens than the English equivalent. What does research say? ICML 2025 -> Study across 70 languages found tokenizers especially inefficient for Turkish and Korean. ACM 2023 -> Turkish-specific research confirmed significant token inefficiency compared to English. Llama 3 training data: 95% English and code. GPT, Claude, Gemini all face the same issue. Token cost ranking: Least -> English prompt + English output Middle -> English prompt + Turkish output Most -> Turkish prompt + Turkish output Which should you choose? Technical work, code, analysis -> keep everything in English Customer text, Turkish docs -> ask for Turkish output Language choice is no longer just preference it's a cost decision.