سالم القطامي SALEM RAYAN RAMY ELKOTAMY: ERNIE 4.5 et X1 de Baidu

ERNIE 4.5 et X1 de Baidu : Caractéristiques, Accès, Comparaison DeepSeek

Découvrez les derniers modèles d'IA de Baidu, ERNIE 4.5 et ERNIE X1, leurs capacités, leurs références, leurs prix et leur comparaison avec des concurrents tels que GPT-4o et DeepSeek-R1.

Actualisé 17 mars 2025

· 8 min de lecture

Contenu

Qu'est-ce que ERNIE 4.5 de Baidu ?

Qu'est-ce que l'ERNIE X1 de Baidu ?

ERNIE 4.5 Benchmarks

Comment accéder à ERNIE 4.5 et ERNIE X1

L'impact d'ERNIE sur le marché de l'IA

Conclusion

FAQ

Baidu a récemment annoncé deux nouveaux modèles d'IA : ERNIE 4.5 et ERNIE X1.

ERNIE 4.5 est un modèle multimodal généraliste utile pour les tâches quotidiennes, en concurrence avec le modèle OpenAI GPT-4o d'OpenAI et V3 de DeepSeek.

ERNIE X1, quant à lui, est un modèle de raisonnement spécialisé conçu pour des tâches avancées telles que les mathématiques et le codage complexe. Elle entrera sur un marché très concurrentiel, aux côtés de DeepSeek-R1 et l'intelligence artificielle OpenAI o3-mini.

Le principal argument de vente de Baidu pour le modèle X1 est qu'il est deux fois moins cher que DeepSeek-R1 tout en offrant des performances similaires. Jusqu'à présent, cependant, nous n'avons pas vu de bancs d'essai pour le X1, et cette affirmation reste donc à vérifier.

D'autre part, ERNIE 4.5 présente de bons résultats de benchmarking, mais il ne semble pas particulièrement convivial pour le public hors de Chine, ce qui, à mon avis, aura un impact significatif sur son adoption.

Les nouvelles publications ERNIE de Baidu constitueront-elles un nouveau "moment DeepSeek" ? Ma première impression est que ce n'est pas vraiment le cas. Mais voyons en quoi consistent ces nouveaux modèles. Dans ce blog, je vais faire la part des choses et présenter les éléments essentiels d'ERNIE 4.5 et de X1.

L'amélioration de l'IA pour les débutants

Apprenez les bases de l'IA et du ChatGPT en partant de zéro.

Qu'est-ce que ERNIE 4.5 de Baidu ?

ERNIE 4.5 est la dernière version de l'IA multimodale de Baidu. modèle d'IA multimodale multimodale de Baidu, un généraliste polyvalent conçu pour les tâches et les interactions quotidiennes. En tant que système multimodal, ERNIE 4.5 traite plusieurs types de données à la fois, intégrant du texte, des images, de l'audio et de la vidéo.

Dans la courte démo officielle, nous voyons un exemple d'ERNIE 4.5 fonctionnant avec du texte et de la vidéo :

Source : Baidu

Ce n'est pas la première fois que Baidu se lance dans l'IA. L'entreprise, fondée en 2000 en tant que premier moteur de recherche chinois (souvent appelé le "Google de Chine"), a commencé à investir sérieusement dans l'intelligence artificielle il y a plusieurs années. Baidu développe ERNIE (Enhanced Representation through Knowledge Integration) depuis 2019 et a lancé le robot ERNIE en 2023.

Toutefois, la domination de Baidu sur le marché asiatique de l'IA a récemment été mise à mal par les modèles Qwen d'Alibaba et par de nouveaux concurrents innovants comme DeepSeek.

Avec ERNIE 4.5, Baidu est en concurrence directe avec la V3 de DeepSeek, Qwen 2.5 Maxde DeepSeek ou GPT-4o d'OpenAI.

Qu'est-ce que l'ERNIE X1 de Baidu ?

ERNIE X1 est un modèle de raisonnement spécialisé conçu pour des tâches avancées telles que les mathématiques et le codage complexe. Similaire à DeepSeek-R1 ou OpenAI's o1ce type de modèle montre explicitement à l'utilisateur son processus de réflexion, ce qui permet de mieux comprendre comment il parvient à une réponse ou à une solution particulière.

Les entreprises continuent d'investir massivement dans des modèles axés sur le raisonnement comme ERNIE X1, car ces modèles ciblent directement les tâches qui apportent une valeur commerciale évidente. Selon des données récentes d'Anthropic, les tâches de raisonnement et de codage sont les principaux cas d'utilisation en entreprise et représentent une part importante de l'adoption de l'IA.

l'indice économique anthropique

Source : L'indice économique anthropique

Malgré le développement rapide de l'IA, son adoption par les entreprises reste faible au niveau mondial, et les modèles qui excellent dans les domaines à forte intensité de raisonnement (mathématiques, codage, analyse avancée) sont plus susceptibles d'apporter une valeur commerciale tangible, ce qui stimule le chiffre d'affaires et accélère l'adoption de l'IA sur le marché des entreprises.

Le principal argument de vente de Baidu pour ERNIE X1 est sa stratégie de prix agressive. Voici une comparaison rapide avec DeepSeek-R1 (les informations sur les prix sont exactes au 17 mars 2025) :

Modèle

Coût d'entrée (le plus bas) pour 1M de jetons

Coût de production pour 1 million de jetons

DeepSeek-R1

0,135 $ (réduction) - 0,55 $ (standard)

0,55 $ (réduit) - 2,19 $ (standard)

ERNIE X1

$0.28

$1.10

Aux tarifs standard (et hors mise en cache du contenu), l'affirmation de Baidu selon laquelle ERNIE X1 égale les performances de DeepSeek-R1 pour la moitié du prix se vérifie, en particulier en ce qui concerne le prix des jetons de sortie.

Cependant, dans le cadre des tarifs réduits de DeepSeek (qui s'appliquent pendant la période 16:30-00:30 UTC chaque jour), c'est l'inverse qui s'applique : ERNIE X1 devient deux fois plus cher.

Malgré un prix attractif, Baidu n'a pas encore fourni de références détaillées confirmant les performances de l'ERNIE X1 par rapport au DeepSeek-R1, ce qui laisse planer une certaine incertitude quant à sa compétitivité dans le monde réel.

En attendant les benchmarks sur ERNIE X1, découvrons plus de détails sur les performances d'ERNIE 4.5.

ERNIE 4.5 Benchmarks

Baidu a publié des tests comparatifs entre ERNIE 4.5 et les principaux modèles multimodaux et textuels, notamment GPT-4o d'OpenAI, GPT-4.5d'OpenAI et V3 de DeepSeek. Passons en revue les principaux résultats, en commençant par les capacités multimodales.

Critères de référence multimodaux

Dans les benchmarks multimodaux, ERNIE 4.5 a surpassé GPT-4o, obtenant un score moyen de 77,77, contre 73,92 pour GPT-4o, soit une avance de 3,85 points.

ernie 4.5 benchmarks

Source : Baidu

Plus précisément, ERNIE 4.5 a surpassé GPT-4o dans six des sept points de référence évalués :

CCBench: Évalue le raisonnement de bon sens à travers le texte et les images. ERNIE 4.5 a obtenu un score d'environ 81, légèrement supérieur à celui de GPT-4o (~79).

OCRBench: Évalue les capacités de reconnaissance optique de caractères, en se concentrant sur l'extraction de texte à partir d'images. ERNIE 4.5 a atteint environ 88, dépassant les ~81 de GPT-4o.

ChartQA: Teste la compréhension des données présentées dans les graphiques. ERNIE 4.5 a obtenu un score de ~82, légèrement supérieur à celui de GPT-4o (~81).

MMMU: Mesure le raisonnement multimodal dans différents domaines. Ici, le GPT-4o est en tête avec ~70, tandis que l'ERNIE 4.5 a obtenu ~64, ce qui indique qu'il y a matière à amélioration.

MathVista: Évaluer le raisonnement mathématique dans des contextes visuels. ERNIE 4.5 a obtenu un score de ~69, surpassant le score de ~61 de GPT-4o.

DocVQA: Évalue la capacité à répondre à des questions basées sur des documents visuels. ERNIE 4.5 a excellé avec un score de ~91, comparé à ~85 pour GPT-4o.

MVBench: Se concentre sur la compréhension temporelle dans les tâches vidéo dynamiques, nécessitant un raisonnement sur des séquences d'images. ERNIE 4.5 a obtenu un score de ~72, ce qui est nettement supérieur au score de ~63 de GPT-4o.

Critères de référence textuels

Pour les tâches textuelles, ERNIE 4.5 a obtenu un score moyen de 79.6légèrement supérieur à celui de GPT-4.5 (79,14) et à celui de DeepSeek-V3 (~77).

ernie 4.5 tests en texte seul

Source : Baidu

Ces résultats suggèrent qu'ERNIE 4.5 est particulièrement compétitif dans les domaines de la compréhension de documents multimodaux, des mathématiques et de la langue chinoise. Cependant, ses performances plus faibles sur des benchmarks de codage spécifiques, tels que LiveCodeBench, mettent en évidence les limites potentielles dans les tâches de codage spécialisées.

Passons rapidement en revue quelques points de repère clés :

MMLU-Pro: Évalue l'apprentissage multitâche dans différentes disciplines. ERNIE 4.5 a obtenu un score de ~78, légèrement inférieur à celui de GPT-4.5 (~79).

GPQA: Évalue les réponses aux questions d'ordre général. ERNIE 4.5 a obtenu ~57, derrière GPT-4.5 ~61.

C-Eval: Mesure les connaissances générales et le raisonnement des Chinois. ERNIE 4.5 est en tête avec ~88, surpassant les ~80 de GPT-4.5.

CMMLU: Teste la compréhension de la langue chinoise en multitâche. ERNIE 4.5 a obtenu un score de ~88, devant le score de ~80 de GPT-4.5.

Math-500: Mesure la capacité d'un modèle à résoudre des problèmes mathématiques difficiles de niveau secondaire. ERNIE 4.5 (~82) est derrière le leader DeepSeek-V3 (~88) et GPT-4.5 (~84).

CMath: Évalue la résolution de problèmes mathématiques en chinois. ERNIE 4.5 est en tête avec ~95, dépassant les ~85 de DeepSeek-V3.

LiveCodeBench: Mesure les capacités de codage en temps réel. ERNIE 4.5 a obtenu un score de ~35, inférieur au score de ~45 de GPT-4.5, ce qui indique une marge d'amélioration dans les tâches de codage.

Comment accéder à ERNIE 4.5 et ERNIE X1

Vous pouvez directement essayer ERNIE 4.5 et X1 de Baidu via l'application officielle de chatbot disponible sur leur site web : yiyan.baidu.com.

Cependant, d'après mon expérience personnelle, il y a quelques problèmes d'utilisation. L'interface est actuellement disponible principalement en chinois, ce qui la rend difficile pour les non-chinois. Bien que vous puissiez utiliser la fonction de traduction automatique du navigateur, la traduction n'est pas fluide et l'interface utilisateur s'en ressent.

Source : Baidu

De plus, la connexion à Google ou GitHub n'est pas disponible, un problème que je n'ai pas rencontré chez des concurrents comme DeepSeek ou Qwen. J'ai quand même essayé de créer un compte, mais je n'ai pas été autorisé à remplir le formulaire d'inscription avec mon numéro de téléphone européen.

Comment accéder à ERNIE via l'API

Pour les développeurs intéressés par l'intégration d'ERNIE 4.5, l'accès à l'API est déjà disponible via la plateforme officielle de Baidu, Qianfan. La tarification commence à 0,55 $ pour 1 million de jetons d'entrée et à 2,20 $ pour 1 million de jetons de sortie.

Au 17 mars 2024, ERNIE X1 n'est pas encore disponible via l'API, mais Baidu a indiqué qu'il le serait bientôt.

En outre, Baidu a annoncé son intention de mettre ERNIE 4.5 en open source à partir du 30 juin 2025. Cette étape pourrait améliorer l'adoption au niveau international en rendant le modèle plus accessible et adaptable.

Baidu a également l'intention d'intégrer ERNIE 4.5 et X1 dans divers produits de son écosystème, notamment Baidu Search et l'application Wenxiaoyan, bien que le calendrier et les détails restent à confirmer.

L'impact d'ERNIE sur le marché de l'IA

La sortie d'ERNIE 4.5 et d'ERNIE X1 de Baidu s'inscrit dans une tendance notable que j'ai observée dans le secteur de l'IA en Chine : une stratégie qui privilégie la perturbation plutôt que la facilité d'utilisation immédiate.

Contrairement à des entreprises telles que Google, OpenAI ou Mistral, qui consacrent généralement de longues périodes (souvent 8 à 12 mois ou plus) à s'assurer que leurs produits répondent à des normes strictes en matière de stabilité, de sécurité, de respect de la vie privée et de sûreté, les entreprises chinoises spécialisées dans l'IA semblent privilégier le déploiement rapide de produits convaincants, mais qui n'en sont encore qu'à leurs débuts, à l'état brut.

Tout comme ManusAI et DeepSeek, les modèles ERNIE de Baidu suivent une tendance similaire. Ils entrent sur le marché de manière agressive, en cherchant avant tout à perturber les structures de prix et les hypothèses concurrentielles. Le modèle ERNIE X1, en particulier, se positionne explicitement comme ayant des performances comparables à celles de DeepSeek-R1 pour la moitié du prix, même si Baidu n'a pas encore étayé publiquement ces affirmations par des benchmarks détaillés.

Et, bien qu'ERNIE 4.5 affiche des résultats de référence véritablement compétitifs, les utilisateurs internationaux comme moi rencontrent encore des obstacles, notamment un processus d'inscription difficile et des problèmes d'accessibilité linguistique.

Dans l'ensemble, les versions ERNIE 4.5 et X1 renforcent l'idée que les entreprises chinoises spécialisées dans l'IA sont prêtes à sacrifier une partie de la stabilité et de l'expérience utilisateur à court terme, tant qu'elles sont capables de faire progresser rapidement le marché et de susciter des discussions au sein de l'industrie.

Il reste à voir si cette approche est durable, mais il est indéniable qu'elle est efficace pour forcer le marché mondial de l'IA à avancer plus vite et à réfléchir différemment à ce que signifie être compétitif sur le marché actuel.

Conclusion

Le lancement par Baidu d'ERNIE 4.5 et d'ERNIE X1 représente une nouvelle étape ambitieuse dans le paysage concurrentiel de l'IA en Chine. ERNIE 4.5 présente des points forts évidents, en particulier dans les domaines de la compréhension multimodale, des mathématiques et des tâches en langue chinoise, ce qui le place en bonne position par rapport à ses concurrents mondiaux tels que GPT-4o et DeepSeek V3.

D'autre part, la promesse d'ERNIE X1 de fournir des capacités de raisonnement avancées pour la moitié du coût de DeepSeek-R1 est intrigante, mais en l'absence de données de référence, elle reste spéculative.

À mesure que ces modèles arrivent à maturité, il sera intéressant de voir si Baidu et d'autres entreprises chinoises similaires adaptent leur approche pour trouver un meilleur équilibre entre perturbation et stabilité.

سالم القطامي SALEM RAYAN RAMY ELKOTAMY

الأربعاء، مارس 19، 2025

ERNIE 4.5 et X1 de Baidu

ليست هناك تعليقات:

تسريبات خرجت من تطبيق "سيغنال" المشفر

إجمالي مرات مشاهدة الصفحة