Post by Serdar Özcan
R&D Technology Development | Innovation Management | Industry 4.0 | Digital Transformation, AI | Environmentally Friendly Technologies | PhD. Int. Business Administration & M.Sc Computer Eng. & B.Sc Electronics Eng.
TR & EN | 🤖 Geçen hafta Anthropic, değerlemede OpenAI'yi geride bıraktı. Herkesin bahsettiği rakam 965 milyar dolardı. Benim asıl önemsediğim rakam ise farklı. Anthropic, yeni Claude Opus 4.8'in kendi kodundaki hataların fark edilmeden geçmesine izin verme olasılığının yaklaşık dört kat daha düşük olduğunu ve tek bir görev üzerinde eskisinden çok daha uzun süre kalabildiğini söylüyor. İkinci kısım benim için asıl önemli olan. TAO AI LAB olarak sesli ajanlar ve agentic iş akışları kuruyoruz, büyük veri üzerinden tahminlerde bulunuyoruz. Zor olan kısım, modelin tek bir cevapta zeki görünmesini sağlamak değildi. Zor olan kısım, uzun bir görüşme boyunca tutarlılığını korumak: sapma yok, döngü yok, kendinden emin görünürken sessizce yanlış bir şey yapma yok. Kendi hatalarını daha fazla yakalayan ve konuyu daha uzun süre tutan bir model, insan gözetimi olmadan çalıştırabileceğiniz şeyleri değiştiriyor. Ajan geliştiren herkes için bu, bir kıyaslama testindeki başka bir puandan daha önemli. Yani değerleme başlığı, 28 Mayıs'ta olan en az ilgi çekici şey. Asıl hikaye modelde. 📖 Detaylı analiz ve tüm kaynaklar, ilk yorumdaki blog yazımızda. İşte size samimi sorum 👇 Hangisini tercih edersiniz: tek bir akıllı cevap veren bir model mi, yoksa sizin sürekli gözetiminiz olmadan uzun bir görevi yürütebilen bir model mi? #YapayZeka #Agentic #Anthropic 🤖 Last week Anthropic passed OpenAI in valuation. The number everyone quoted was $965 billion. The number I actually care about was a different one. Anthropic says its new Claude Opus 4.8 is around four times less likely to let flaws in its own code slip through unnoticed, and that it can stay on a single task far longer than before. That second part is the whole game for me. At TAO AI LAB we build voice agents. The hard part was never making the model sound clever in one reply. The hard part is keeping it coherent across a long call: no drifting, no looping, no quietly doing the wrong thing while sounding confident. A model that catches more of its own mistakes, and holds the thread longer, changes what you can leave running without a human watching it. For anyone building agents, that matters more than another point on a benchmark. So the valuation headline is the least interesting thing that happened on May 28. The model is the story. 📖 Full analysis and all sources are in the blog post, linked in the first comment. Here is my honest question for you 👇 Which would you rather have: a model that gives a smarter single answer, or one that can run a long task without you babysitting it? #AI #Agentic #Anthropic