Post by Alexandre Dos Santos
Chief AI Architect & AI Design Authority @ BNP Paribas AI Factory (BCEF) | Machine Learning · Deep Learning · Generative AI · Agentic AI | Ex-Founder & CTO in AI & Blockchain
Hugging Face a annoncé avoir OCRisé 27 000 papiers Arxiv en utilisant le modèle open weight (licence restrictive à partir de 2 M$ de CA) OCR Chandra 2 à 5 milliards de paramètres de la société Datalab. Pour être honnête, je ne connaissais pas ce modèle et puis suite à ce post de Clem Delangue 🤗, je suis allé découvrir ses benchmarks notamment sur toutes les typologies de documents complexes dont il y a tant d'exemples sur le site officiel de Dalalab pour se faire une idée: https://lnkd.in/d5brDKWr Chandra 2 domine (voire écrase) pratiquement tous les benchmarks (cela est évidemment à tester soi-même sur ses documents) au prix de 1 à 3B de paramètres supplémentaires par rapport à des OCR concurrents. La différence avec DeepSeek OCR 2 (+15 pts sur doc Arxiv, +10 pts sur les tables, +15 pts sur le multi-colonnes) que je trouve personnellement déjà excellent, en dit long sur le potentiel et permet de comprendre tout de suite pourquoi Hugging Face a choisi Chandra2 😅 📍Côté industrialisation à première vue pour du On Premise, il faudra bien sûr prévoir une grappe de H100 (2 suffiront) pour assurer un traitement qui ne mobilisera pas trop de documents concurrents et si le temps de réponse et la résilience sont importants pour vous dans votre workflow (sinon une H100 fera largement l'affaire et même moins). Pour vous donner une idée, Hugging Face a réalisé ses traitements (que j'estime à au moins 500 000 pages) en 29 heures avec des L40S et 16 jobs en parallèles (total de 5 pages par secondes). Merci à Clem Delangue 🤗 pour le partage de cette information, et invite en retour chacun à bien sûr le suivre, mais aussi à tester le nouveau service qu'ils ont mis en place "Chat with your paper" et qui je l'espère contribuera à démocratiser encore plus la lecture de papier scientifiques dont je vous parle si souvent: https://lnkd.in/dCqz_kWA #Chandra2 #DataLab #OCR #Markdown