Réflexion 70B (Entièrement testé) : Ce LLM open source bat-il Claude 3.5 Sonnet et GPT-4O ?
Vidéo
Par AICodeKing le 09/07/2024 durée 10:03
Rejoignez cette chaîne pour accéder à des avantages :
https://www.youtube.com/@AICodeKing/join
Dans cette vidéo, je vais tester en profondeur le modèle Reflection 70B, qui est une version ajustée par technique de réflexion de Llama-3.1 70b, pour vérifier s’il est réellement performant. Il est entièrement open source et je vais également essayer de déterminer s’il peut réellement surpasser Llama-3.1 (405B), Claude 3.5 Sonnet, GPT-4O, DeepSeek et Qwen-2. Ce modèle est entièrement gratuit et peut être utilisé SANS FRAIS. Il est même meilleur pour les tâches de codage et excelle également dans la conversion de texte en application, de texte en interface et d’autres applications. Je vais le tester pour découvrir s’il peut vraiment surpasser d’autres LLMs et je vous expliquerai aussi comment vous pouvez l’utiliser gratuitement.
—–
Points clés :
🔥 Llama-3.1 vs. Claude 3.5 Sonnet : Le nouveau modèle Llama-3.1 ajusté prétend surpasser Claude 3.5 Sonnet et de nombreux autres modèles d’IA open source !
🤖 Explication de l’ajustement par réflexion : Découvrez l’ajustement par réflexion, la technique révolutionnaire qui permet aux LLMs de détecter et de corriger leurs propres erreurs !
📊 Analyse des performances : Voyez comment Reflection 70B surpasse les autres modèles d’IA dans presque tous les benchmarks, mais est-il digne de confiance ?
💰 Coûts d’inférence élevés : Bien que Reflection 70B offre un raisonnement avancé, sa génération de tokens pourrait faire exploser les coûts par rapport à d’autres modèles de langage IA comme GPT-4 et Claude.
⚠️ Test de Reflection 70B : Regardez comment nous mettons Reflection 70B à l’épreuve avec des questions de logique et de codage difficiles – tiendra-t-il le coup ?
💡 Limitations pratiques : Malgré sa puissance, le modèle Reflection 70B à coût élevé peut ne pas être aussi pratique que l’utilisation d’un modèle d’IA 7B plus efficace.
🔧 Plongée dans les tâches de codage : Des scripts Python au HTML et CSS, découvrez où Reflection 70B excelle et où il rencontre des difficultés.
—–
Horodatages :
00:00 – Introduction
00:07 – À propos de Reflection 70B
02:43 – Test
07:51 – Conclusion
09:27 – Fin
Résumé
- J'ai appris que le nouveau modèle Llama 3.1, appelé "Reflection 70B", utilise une méthode d'apprentissage appelée "reflection tuning" qui lui permet de corriger ses erreurs de raisonnement avant de donner la réponse.
- Cette méthode crée un processus de réflexion interne, ce qui est intéressant, mais cela peut entraîner une augmentation des coûts d'inférence en produisant deux à trois fois plus de jetons que les modèles normaux.
- J'ai testé ce modèle avec 13 questions et il a bien répondu à la plupart, mais il a échoué sur certaines questions de raisonnement et de codage, ce qui montre qu'il a encore des limites importantes.
- Par exemple, il a erré dans l'identification d'un nombre premier et dans la création de certaines pages HTML, ce qui souligne que même les modèles avancés ne sont pas infaillibles.
- Je réalise que malgré ses performances, ce modèle entraîne des coûts élevés, allant de 50 à 60 % plus cher que d'autres modèles, sans pour autant garantir des résultats significativement meilleurs.
- J'encourage à considérer d'autres options comme des modèles plus petits, qui pourraient offrir des résultats comparables avec des coûts beaucoup plus bas, surtout pour des utilisateurs souhaitant quelque chose de plus accessible.
Comment passer à l’action ?
Je suggérerais de commencer par explorer des modèles plus petits et économiques pour les besoins de votre entreprise ou de votre développement personnel. Ces modèles peuvent offrir des résultats satisfaisants avec un coût inférieur, ce qui est important si vous avez un budget serré.
Une bonne façon de le faire est de tester des outils d'intelligence artificielle comme Llama 3.1 qui applique la méthode de "reflection tuning". Cependant, je ferais attention à son coût d'inférence qui est plus élevé en raison du nombre de jetons générés. Pour minimiser les dépenses, je vous recommande d'utiliser des versions de modèles qui peuvent être exécutées localement, car cela réduit les coûts globaux.
Je vous conseillerais aussi de passer du temps à apprendre à poser des questions précises et pertinentes aux modèles d'IA. Cela peut améliorer la qualité des réponses et réduire le temps passé à corriger des erreurs. En utilisant les retours des modèles sur des questions simples, vous pouvez affiner vos compétences et mieux comprendre comment formuler vos demandes.
Enfin, je vous encouragerais à rester curieux et à essayer différents modèles. N'ayez pas peur de comparer les résultats afin de choisir la solution qui convient le mieux à vos besoins, tant en termes de coût que d’efficacité. Cela peut vous aider à atteindre vos objectifs tout en maintenant des dépenses maîtrisées.
Citations de AICodeKing
"Le réflexion est la clé de la réussite"
"La créativité naît souvent de la réflexion"
"Un bon entrepreneur réfléchit avant d'agir"
"La réflexion peut transformer une idée en réalité"
"Prendre le temps de réfléchir, c'est investir dans son succès"
Transcription
[Music] hi welcome to another video so there’s a new llama 3.1 fine-tuned model that has hit the internet and it’s claiming to be even better than Claude 3.5 Sonet and the best open-source model ever and it’s just the fine tune of the 70b variant not even the 405b variant this model is called reflection 70b it’s named this because it was trained with a new technique called reflection tuning which teaches an llm to detect mistakes in its reasoning and correct its course the creators have shared The Benchmark results and as you can see it literally beats every model in almost every Benchmark which is just insane to think about but we can’t fully trust these benchmarks alone so we’ll be trying it out but first let me explain to you what reflection tuning is so we can understand what makes it different and why it may be able to do what it claims to do reflection tuning was first introduced in this paper what the reflection tuning method proposes is that first the llm thinks about how it should answer the question then it reflects on the answer meaning it considers whether the answer it’s thinking of is correct or not if it thinks changes are needed it makes those adjustments before producing the final output as you can see in this picture it thinks reflects and then gives the answer it’s like an internal monologue system which is kind of cool so it’s cool but there could be one drawback to this the drawback is that it might generate two to three times more tokens than a general llm would which will increase its inference cost significantly which is concerning anyway Let’s test it and see they have a hosted demo to try it out but it doesn’t work for some reason many people are complaining about this but it’s available on AMA so we can test it from there however because it’s a 70b model I can’t host it locally so I’ll be hosting it on Lightning Ai and then using it on open web UI to chat with it I already have that setup so that isn’t an issue anyway let’s get started and check it out I’ll be testing it with these 13 questions so let’s get started the first question is what is the capital city of the country whose name ends with Elia I’m referring to the country name here the answer should be canbera or any country capital that rhymes with AIA let’s send it over and check okay here’s the answer and this is correct also you can see how many tokens it generated to reach that answer which is insane and not cost effective at all anyway let’s mark this as a pass the next question is what is the number that rhymes with the word we use to to describe a tall plant the answer should be three let’s see if it can answer here’s the answer and this is correct so we’ll mark this as a pass the next question is JN has three boxes of pencils each box contains 12 pencils how many pencils does John have in total the answer should be 36 let’s send it and check okay here’s the answer and this one’s also correct let’s mark it as a pass the next question is Lucy has twice as many candies as Mike if Mike has seven candies how many candies does Lucy have the answer should be 14 let’s send it and check here’s the answer and this is correct so this one’s also a pass the next question is is 337 a prime number the answer should be yes so let’s send it over okay here’s the answer and this isn’t correct so even after all that reasoning it still can’t tell if a number is prime or not which is interesting let’s mark this as a fail now the next question is I have two apples then I buy two more I bake a pie with two of the apples after eating half of the pie by how many apples do I have left the answer should be two let’s send it over here’s the answer and this is correct so let’s mark this as a pass the next question is Sally is a girl she has three brothers each of her brothers has the same two sisters how many sisters does Sally have the answer should be one let’s send it over okay here’s the answer and this looks correct so let’s mark this as a pass now the next question is if a regular hexagon has a short diagonal of 64 what is its long diagonal the answer should be 73.9 let’s send it and see okay here’s the answer and it doesn’t answer this question correctly let’s mark this as a fail now the next questions are coding related the first one is create an HTML page with a button that explodes confetti when you click it you can use CSS and JS as well let’s send it and check here’s the code let’s preview it okay so this doesn’t work at all let’s mark this as a fail the next question is create a Python program that prints the next X leap years based on user input let’s send and check here’s the code let’s run it it’s asking for input let’s give it that and here’s the output which is correct so this works pretty well let’s mark it as a pass the next question is generate the SVG code for a butterfly okay here’s the code let’s preview it and this doesn’t look like a butterfly this one’s a fail now the next question is create a landing page for an AI company the landing page should have four sections header Banner features and contact us make sure the landing page looks sleek and modern you can use HTML CSS and JS let’s send it and see here’s the code let’s preview this and this doesn’t look like a good landing page it doesn’t have proper spacing or anything the bass llama 3.1 makes better landing pages so this one’s a fail now the next question is write a game of life in Python that works in the terminal let’s send it and see here’s the code let’s run it okay this works fine I don’t have any complaints let’s mark this as a pass now here’s the final chart I’ve also added the original 70b testing here and as you can see both models f failed in five questions although they failed in some different and some common questions what this tells us is that it isn’t on par with Claude GPT 40 or any of the models they claim at Rivals although this is a good model it has many limitations for instance the number of tokens it consumes for a simple answer is insane it’s not cost effective at all plus there aren’t many upsides it might be good at specific reasoning tasks but generally it’s similar to other models with much higher costs making it a tough pill to swallow it would have been great if this reflection training was done on a Model that people could actually run locally like a 7B or 2B model that would allow us to avoid worrying about token usage and costs yielding 10 to 20% better results in specific domains but doing this on a 70b model is not a great idea since it costs 50 to 60% more money for only 10 to 20% better results in that case people could just use something like deep seek gemini or even Claude which would give them better results so overall it’s cool in performance but not so cool in terms of cost anyway let me know your thoughts in the comments if you liked this video consider donating to my Channel Through the super thanks option below or you can also consider becoming a member by clicking the join button also give this video a thumbs up and subscribe to my channel I’ll see you in the next video till then bye [Music] oh [Music]