🤖 style: update i18n (#9907)

💄 style: update i18n

Co-authored-by: canisminor1990 <17870709+canisminor1990@users.noreply.github.com>
This commit is contained in:
LobeHub Bot 2025-10-29 00:07:48 +08:00 committed by GitHub
parent f46cc50e15
commit d149c4dbdf
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194
18 changed files with 450 additions and 72 deletions

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: نموذج واسع النطاق قائم على مزيج من الخبراء، يوفر استراتيجية تفعيل خبراء فعالة لتحقيق أداء متميز في الاستدلال."
},
"MiniMax-M1": {
"description": "نموذج استدلال جديد مطور ذاتيًا. رائد عالميًا: 80 ألف سلسلة تفكير × 1 مليون إدخال، أداء يضاهي أفضل النماذج العالمية."
"description": "نموذج استدلال جديد مطوّر ذاتيًا. رائد عالميًا: سلسلة تفكير 80K × إدخال 1M، بأداء يضاهي أفضل النماذج العالمية."
},
"MiniMax-M2": {
"description": "مصمم خصيصًا للترميز الفعّال وتدفقات عمل الوكلاء."
},
"MiniMax-Text-01": {
"description": "في سلسلة نماذج MiniMax-01، قمنا بإجراء ابتكارات جريئة: تم تنفيذ آلية الانتباه الخطي على نطاق واسع لأول مرة، لم يعد هيكل Transformer التقليدي هو الخيار الوحيد. يصل عدد معلمات هذا النموذج إلى 456 مليار، مع تنشيط واحد يصل إلى 45.9 مليار. الأداء الشامل للنموذج يتساوى مع النماذج الرائدة في الخارج، بينما يمكنه معالجة سياقات تصل إلى 4 ملايين توكن، وهو 32 مرة من GPT-4o و20 مرة من Claude-3.5-Sonnet."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking هو نموذج أساسي من الجيل التالي أصدره فريق Tongyi Qianwen في علي بابا، مصمم خصيصًا لمهام الاستدلال المعقدة. يعتمد على بنية Qwen3-Next المبتكرة التي تدمج آلية انتباه هجينة (Gated DeltaNet و Gated Attention) وهيكل خبراء مختلط عالي التشتت (MoE)، بهدف تحقيق أقصى كفاءة في التدريب والاستدلال. كنموذج متناثر يحتوي على 80 مليار معلمة إجمالية، فإنه ينشط حوالي 3 مليارات معلمة فقط أثناء الاستدلال، مما يقلل بشكل كبير من تكلفة الحوسبة، وعند معالجة مهام سياق طويل تتجاوز 32 ألف رمز، فإن معدل الاستدلال يتفوق على نموذج Qwen3-32B بأكثر من 10 أضعاف. نسخة \"Thinking\" هذه مخصصة لتنفيذ مهام متعددة الخطوات عالية الصعوبة مثل الإثباتات الرياضية، توليف الشيفرة، التحليل المنطقي والتخطيط، وتخرج عملية الاستدلال بشكل افتراضي في شكل \"سلسلة تفكير\" منظمة. من حيث الأداء، يتفوق هذا النموذج ليس فقط على نماذج ذات تكلفة أعلى مثل Qwen3-32B-Thinking، بل يتفوق أيضًا في عدة اختبارات معيارية على Gemini-2.5-Flash-Thinking."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner هو نموذج لغة بصرية (VLM) من سلسلة Qwen3 التي طورتها شركة علي بابا وفريق Tongyi Qianwen. تم تصميمه خصيصًا لإنشاء أوصاف صور عالية الجودة، دقيقة ومفصلة. يعتمد النموذج على بنية خبراء هجينة (MoE) بإجمالي 30 مليار معلمة، مما يتيح له فهمًا عميقًا لمحتوى الصور وتحويله إلى أوصاف نصية طبيعية وسلسة. يتميز بأداء ممتاز في التقاط تفاصيل الصور، وفهم المشاهد، والتعرف على الكائنات، والاستدلال على العلاقات، مما يجعله مثاليًا للتطبيقات التي تتطلب فهمًا دقيقًا للصور وتوليد أوصاف لها."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct هو أحد نماذج سلسلة Qwen3 الأحدث من تطوير فريق Tongyi Qianwen في علي بابا. يتميز ببنية خبراء هجينة (MoE) بإجمالي 30 مليار معلمة و3 مليارات معلمة مفعّلة، مما يحقق أداءً قويًا مع تقليل تكلفة الاستدلال. تم تدريبه على بيانات عالية الجودة ومتعددة المصادر واللغات، ويتميز بقدرات عامة قوية، ويدعم معالجة مدخلات متعددة الوسائط تشمل النصوص، الصور، الصوت والفيديو، مع إمكانية فهم وتوليد محتوى متعدد الوسائط."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking هو المكون الأساسي \"المفكر\" (Thinker) في نموذج Qwen3-Omni متعدد الوسائط. يتولى معالجة مدخلات متعددة الوسائط تشمل النصوص، الصوت، الصور والفيديو، ويقوم بتنفيذ سلاسل استدلال معقدة. يعمل كنواة الاستدلال، حيث يوحّد جميع المدخلات ضمن فضاء تمثيلي عام، مما يتيح فهماً عميقاً واستدلالاً معقداً عبر الوسائط. يعتمد على بنية خبراء هجينة (MoE) بإجمالي 30 مليار معلمة و3 مليارات معلمة مفعّلة، مما يوازن بين قوة الاستدلال وكفاءة الحوسبة."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct هو نموذج كبير من سلسلة Qwen3-VL تم تدريبه على التعليمات، ويعتمد على بنية الخبراء المختلطة (MoE)، ويتميز بقدرات فائقة في الفهم والتوليد متعدد الوسائط. يدعم السياق الأصلي حتى 256 ألف رمز، مما يجعله مناسبًا لخدمات الإنتاج متعددة الوسائط عالية التوازي."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking هو إصدار معزز بالاستدلال من Qwen3-VL (Thinking)، تم تحسينه لمهام الاستدلال متعدد الوسائط، وتحويل الصور إلى كود، وفهم الرؤية المعقدة. يدعم سياقًا يصل إلى 256 ألف رمز ويتميز بقدرات تفكير متسلسلة أقوى."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct هو نموذج لغة بصرية من تطوير فريق Tongyi Qianwen في علي بابا، وقد حقق أداءً رائدًا (SOTA) في العديد من اختبارات اللغة البصرية. يدعم إدخال صور عالية الدقة بمستوى ملايين البكسلات، ويتميز بقدرات قوية في الفهم البصري العام، والتعرف البصري متعدد اللغات (OCR)، وتحديد المواقع البصرية الدقيقة، والحوار البصري. كجزء من سلسلة Qwen3، يمكنه التعامل مع مهام متعددة الوسائط مع دعم وظائف متقدمة مثل استدعاء الأدوات واستكمال السياق."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking هو إصدار محسن من نموذج اللغة البصرية الذي طوره فريق Tongyi Qianwen في علي بابا، ومخصص لمهام الاستدلال البصري المعقدة. يتميز بوضع \"التفكير\" المدمج، الذي يتيح له توليد خطوات استدلال وسيطة مفصلة قبل الإجابة، مما يعزز أداءه في المهام التي تتطلب منطقًا متعدد الخطوات، وتخطيطًا واستدلالًا معقدًا. يدعم إدخال صور عالية الدقة بمستوى ملايين البكسلات، ويتميز بقدرات قوية في الفهم البصري العام، والتعرف البصري متعدد اللغات (OCR)، وتحديد المواقع البصرية الدقيقة، والحوار البصري، بالإضافة إلى دعم استدعاء الأدوات واستكمال السياق."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct هو نموذج لغة بصرية من سلسلة Qwen3، تم تطويره استنادًا إلى Qwen3-8B-Instruct وتدريبه على كمية كبيرة من بيانات الصور والنصوص. يتميز بقدرته على فهم الرؤية العامة، وإجراء حوارات تتمحور حول المحتوى البصري، والتعرف على النصوص متعددة اللغات داخل الصور. وهو مناسب لتطبيقات مثل الأسئلة والأجوبة البصرية، ووصف الصور، واتباع التعليمات متعددة الوسائط، واستدعاء الأدوات."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct يوفر قدرة معالجة تعليمات موثوقة، يدعم تطبيقات متعددة الصناعات."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR هو نموذج لغة بصرية طورته DeepSeek AI، يركز على التعرف البصري على الحروف (OCR) و\"الضغط البصري السياقي\". يهدف هذا النموذج إلى استكشاف حدود ضغط المعلومات السياقية من الصور، ويستطيع معالجة المستندات بكفاءة وتحويلها إلى تنسيقات نصية منظمة مثل Markdown. يتمتع بقدرة دقيقة على التعرف على النصوص داخل الصور، مما يجعله مثاليًا لتطبيقات رقمنة المستندات، واستخراج النصوص، والمعالجة المنظمة."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 هو نموذج استدلال مدفوع بالتعلم المعزز (RL) يعالج مشكلات التكرار وقابلية القراءة في النموذج. قبل استخدام RL، قدم DeepSeek-R1 بيانات بدء باردة، مما أدى إلى تحسين أداء الاستدلال. إنه يقدم أداءً مماثلاً لـ OpenAI-o1 في المهام الرياضية والبرمجية والاستدلال، وقد حسّن النتائج العامة من خلال طرق تدريب مصممة بعناية."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B هو نموذج لغة مفتوح المصدر من جوجل، وضع معايير جديدة في الكفاءة والأداء."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B هو نموذج لغة مفتوح المصدر من جوجل، وضع معايير جديدة في الكفاءة والأداء."
},
"google/gemma-3-27b-it": {
"description": "جيمّا 3 27B هو نموذج لغوي مفتوح المصدر من جوجل، وقد وضع معايير جديدة من حيث الكفاءة والأداء."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct يحتوي على 80 مليار معلمة، ويمكن تفعيل 13 مليار معلمة فقط لمنافسة النماذج الأكبر، ويدعم الاستدلال المختلط بين \"التفكير السريع/التفكير البطيء\"؛ فهم مستقر للنصوص الطويلة؛ تم التحقق من قدرات الوكيل عبر BFCL-v3 وτ-Bench، مع أداء متقدم؛ يجمع بين GQA وتنسيقات التكميم المتعددة لتحقيق استدلال فعال."
},
"tencent/Hunyuan-MT-7B": {
"description": "نموذج الترجمة Hunyuan يتكون من نموذج Hunyuan-MT-7B ونموذج مدمج Hunyuan-MT-Chimera. Hunyuan-MT-7B هو نموذج ترجمة خفيف الوزن يحتوي على 7 مليارات معلمة، ويُستخدم لترجمة النصوص من اللغة المصدر إلى اللغة الهدف. يدعم النموذج الترجمة بين 33 لغة بالإضافة إلى 5 لغات من الأقليات الصينية. في مسابقة الترجمة الآلية الدولية WMT25، حصل Hunyuan-MT-7B على المركز الأول في 30 من أصل 31 فئة لغوية شارك فيها، مما يبرز قدراته المتميزة في الترجمة. ولتلبية احتياجات الترجمة، طورت Tencent Hunyuan منهجية تدريب شاملة تبدأ من ما قبل التدريب، ثم الضبط الخاضع للإشراف، ثم التعزيز المخصص للترجمة، وأخيرًا التعزيز المدمج، مما مكنه من تحقيق أداء رائد بين النماذج ذات الحجم المماثل. يتميز النموذج بكفاءة حسابية عالية وسهولة في النشر، مما يجعله مناسبًا لمجموعة واسعة من التطبيقات."
},
"text-embedding-3-large": {
"description": "أقوى نموذج لتضمين النصوص، مناسب للمهام الإنجليزية وغير الإنجليزية."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: Голям модел, базиран на Mixture-of-Experts, предлагащ ефективна стратегия за активиране на експерти за отлични резултати при разсъждение."
},
"MiniMax-M1": {
"description": "Изцяло ново самостоятелно разработено модел за разсъждение. Световен лидер: 80K вериги на мислене x 1M вход, с резултати, сравними с водещите модели в чужбина."
"description": "Изцяло нова самостоятелно разработена инференсна система. Световен лидер: 80K вериги на мислене x 1M входни данни, с ефективност, съпоставима с водещите международни модели."
},
"MiniMax-M2": {
"description": "Създаден специално за ефективно програмиране и работни потоци с агенти."
},
"MiniMax-Text-01": {
"description": "В серията модели MiniMax-01 направихме смели иновации: за първи път реализирахме мащабно линейно внимание, традиционната архитектура на Transformer вече не е единственият избор. Параметрите на този модел достигат 4560 милиарда, с единична активация от 45.9 милиарда. Общата производителност на модела е на нивото на водещите модели в чужбина, като същевременно ефективно обработва глобалния контекст от 4 милиона токена, което е 32 пъти повече от GPT-4o и 20 пъти повече от Claude-3.5-Sonnet."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking е следващото поколение основен модел, публикуван от екипа на Alibaba Tongyi Qianwen, специално проектиран за сложни задачи за разсъждение. Той е базиран на иновативната архитектура Qwen3-Next, която комбинира хибриден механизъм за внимание (Gated DeltaNet и Gated Attention) и структура с висока степен на разреждане на смесени експерти (MoE), с цел постигане на изключителна ефективност при обучение и извод. Като разреден модел с общо 80 милиарда параметри, при извод активира само около 3 милиарда параметри, което значително намалява изчислителните разходи. При обработка на задачи с дълъг контекст над 32K токена, пропускателната способност при извод е над 10 пъти по-висока в сравнение с модела Qwen3-32B. Тази „Thinking“ версия е оптимизирана за изпълнение на сложни многостъпкови задачи като математически доказателства, синтез на код, логически анализ и планиране, като по подразбиране изходът на разсъжденията е във формата на структурирана „мисловна верига“. По отношение на производителността, тя не само превъзхожда модели с по-високи разходи като Qwen3-32B-Thinking, но и превъзхожда Gemini-2.5-Flash-Thinking в множество бенчмаркове."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner е визуално-езиков модел (VLM) от серията Qwen3 на екипа Tongyi Qianwen на Alibaba. Той е специално проектиран за генериране на висококачествени, подробни и точни описания на изображения. Моделът използва архитектура с хибридни експерти (MoE) с общо 30 милиарда параметъра, което му позволява дълбоко разбиране на съдържанието на изображенията и превръщането им в естествен и плавен текст. Отличава се в улавянето на детайли, разбиране на сцени, разпознаване на обекти и логическо извеждане на връзки, което го прави особено подходящ за приложения, изискващи прецизно визуално разбиране и генериране на описания."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct е част от най-новата серия Qwen3 на екипа Tongyi Qianwen на Alibaba. Това е модел с хибридни експерти (MoE), съдържащ 30 милиарда общи параметъра и 3 милиарда активни параметъра, който съчетава висока производителност с ниски разходи за инференция. Обучен е върху висококачествени, многоизточникови и многоезични данни, притежава силни универсални способности и поддържа обработка на вход от всички модалности, включително текст, изображения, аудио и видео, като може да разбира и генерира мултимодално съдържание."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking е основният компонент \"мислител\" (Thinker) в мултимодалния модел Qwen3-Omni. Той е специално проектиран за обработка на мултимодални входове, включително текст, аудио, изображения и видео, и изпълнение на сложни вериги на мислене. Като интелектуален център на инференцията, моделът обединява всички входове в общо представително пространство, което позволява дълбоко междумодално разбиране и сложни логически изводи. Изграден е върху архитектура с хибридни експерти (MoE), с 30 милиарда общи параметъра и 3 милиарда активни параметъра, осигуряващи мощни възможности за разсъждение при оптимизирана изчислителна ефективност."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct е голям модел от серията Qwen3-VL, фино настроен с инструкции, базиран на архитектура с множество експерти (MoE). Той притежава изключителни способности за мултимодално разбиране и генериране, с вградена поддръжка на 256K контекст, подходящ за високонадеждни производствени мултимодални услуги."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking е подобрена версия за разсъждение (Thinking) от серията Qwen3-VL, оптимизирана за мултимодално разсъждение, преобразуване на изображения в код и сложни задачи за визуално разбиране. Поддържа 256K контекст и притежава по-силни способности за верижно мислене."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct е визуално-езиков модел, разработен от екипа Tongyi Qianwen на Alibaba, който постига водещи SOTA резултати в множество визуално-езикови бенчмаркове. Моделът поддържа вход на изображения с висока резолюция от милиони пиксели и притежава силни способности за общо визуално разбиране, многоезичен OCR, прецизна визуална локализация и визуален диалог. Като част от серията Qwen3, той може да изпълнява сложни мултимодални задачи и поддържа разширени функции като извикване на инструменти и продължаване на префикси."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking е специално оптимизирана версия на визуално-езиков модел от екипа Tongyi Qianwen на Alibaba, предназначена за сложни визуални логически задачи. Моделът включва \"режим на мислене\", който му позволява да генерира подробни междинни стъпки на разсъждение преди да отговори на въпрос, значително подобрявайки представянето му при задачи, изискващи многoетапна логика, планиране и сложни изводи. Поддържа изображения с висока резолюция от милиони пиксели, притежава силни способности за общо визуално разбиране, многоезичен OCR, прецизна визуална локализация и визуален диалог, както и функции като извикване на инструменти и продължаване на префикси."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct е визуално-езиков модел от серията Qwen3, базиран на Qwen3-8B-Instruct и обучен върху голям обем от данни с изображения и текст. Той е особено добър в общо визуално разбиране, визуално-центрирани диалози и разпознаване на многоезичен текст в изображения. Подходящ е за визуални въпроси и отговори, описание на изображения, мултимодални инструкции и използване на инструменти."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct предлага висока надеждност в обработката на инструкции, поддържаща приложения в множество индустрии."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR е визуално-езиков модел, разработен от DeepSeek AI, фокусиран върху оптично разпознаване на символи (OCR) и \"контекстуална оптична компресия\". Моделът изследва границите на компресиране на контекстуална информация от изображения и може ефективно да обработва документи, преобразувайки ги в структурирани текстови формати като Markdown. Той точно разпознава текстово съдържание в изображения, което го прави особено подходящ за дигитализация на документи, извличане на текст и структурирана обработка."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 е модел за извеждане, управляван от подсилено обучение (RL), който решава проблемите с повторяемостта и четимостта в модела. Преди RL, DeepSeek-R1 въвежда данни за студен старт, за да оптимизира допълнително производителността на извеждане. Той показва сравнима производителност с OpenAI-o1 в математически, кодови и извеждащи задачи и подобрява общите резултати чрез внимателно проектирани методи на обучение."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B е отворен езиков модел на Google, който поставя нови стандарти за ефективност и производителност."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B е отворен езиков модел на Google, който поставя нови стандарти за ефективност и производителност."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B е отворен езиков модел на Google, който поставя нови стандарти за ефективност и производителност."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct има 80 милиарда параметри, като активиране на 13 милиарда параметри е достатъчно за съпоставяне с по-големи модели, поддържа хибридно разсъждение „бързо мислене/бавно мислене“; стабилно разбиране на дълги текстове; потвърдено с BFCL-v3 и τ-Bench, с водещи възможности на агент; комбинира GQA и множество формати за квантоване за ефективно разсъждение."
},
"tencent/Hunyuan-MT-7B": {
"description": "Моделът за превод Hunyuan (Hunyuan Translation Model) се състои от преводния модел Hunyuan-MT-7B и интегрирания модел Hunyuan-MT-Chimera. Hunyuan-MT-7B е лек модел с 7 милиарда параметъра, предназначен за превод на изходен текст към целеви език. Поддържа превод между 33 езика и 5 езика на китайски малцинства. В международното състезание по машинен превод WMT25, Hunyuan-MT-7B спечели първо място в 30 от 31 езикови категории, в които участва, демонстрирайки изключителни преводачески способности. За нуждите на превода, Tencent Hunyuan предлага цялостна тренировъчна парадигма — от предварително обучение до контролирано фино настройване, последвано от усилване чрез превод и интеграция, което му позволява да постигне водеща производителност сред модели със същия мащаб. Моделът е с висока изчислителна ефективност и лесен за внедряване, подходящ за различни приложения."
},
"text-embedding-3-large": {
"description": "Най-мощният модел за векторизация, подходящ за английски и неанглийски задачи."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: Ein groß angelegtes Modell basierend auf Mixture-of-Experts, das eine effiziente Expertenaktivierungsstrategie bietet, um bei der Inferenz herausragende Leistungen zu erzielen."
},
"MiniMax-M1": {
"description": "Ein völlig neu entwickeltes Inferenzmodell. Weltweit führend: 80K Denkketten x 1M Eingaben, Leistung auf Augenhöhe mit den besten Modellen im Ausland."
"description": "Ein neu entwickeltes Inferenzmodell. Weltweit führend: 80K Denkketten x 1M Eingaben, vergleichbare Leistung mit den besten internationalen Modellen."
},
"MiniMax-M2": {
"description": "Speziell entwickelt für effizientes Programmieren und Agent-Workflows."
},
"MiniMax-Text-01": {
"description": "In der MiniMax-01-Serie haben wir mutige Innovationen vorgenommen: Erstmals wurde die lineare Aufmerksamkeitsmechanismus in großem Maßstab implementiert, sodass die traditionelle Transformer-Architektur nicht mehr die einzige Wahl ist. Dieses Modell hat eine Parameteranzahl von bis zu 456 Milliarden, wobei eine Aktivierung 45,9 Milliarden beträgt. Die Gesamtleistung des Modells kann mit den besten Modellen im Ausland mithalten und kann gleichzeitig effizient den weltweit längsten Kontext von 4 Millionen Tokens verarbeiten, was 32-mal so viel wie GPT-4o und 20-mal so viel wie Claude-3.5-Sonnet ist."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking ist ein von Alibaba Tongyi Qianwen Team veröffentlichtes nächstes Generation Basis-Modell, das speziell für komplexe Inferenzaufgaben entwickelt wurde. Es basiert auf der innovativen Qwen3-Next-Architektur, die hybride Aufmerksamkeitsmechanismen (Gated DeltaNet und Gated Attention) mit einer hochgradig spärlichen Mixture-of-Experts (MoE)-Struktur kombiniert, um höchste Trainings- und Inferenz-Effizienz zu gewährleisten. Als spärliches Modell mit insgesamt 80 Milliarden Parametern werden bei der Inferenz nur etwa 3 Milliarden Parameter aktiviert, was die Rechenkosten stark reduziert. Bei der Verarbeitung von Langkontextaufgaben mit über 32K Tokens übertrifft der Durchsatz das Qwen3-32B-Modell um das Zehnfache. Diese „Thinking“-Version ist für anspruchsvolle mehrstufige Aufgaben wie mathematische Beweise, Code-Synthese, logische Analyse und Planung optimiert und gibt den Inferenzprozess standardmäßig in strukturierter „Denkketten“-Form aus. In der Leistung übertrifft es nicht nur kostenintensivere Modelle wie Qwen3-32B-Thinking, sondern auch in mehreren Benchmarks das Gemini-2.5-Flash-Thinking."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner ist ein visuelles Sprachmodell (VLM) aus der Qwen3-Serie des Alibaba Tongyi Qianwen-Teams. Es ist speziell darauf ausgelegt, hochwertige, detaillierte und präzise Bildbeschreibungen zu generieren. Das Modell basiert auf einer Mixture-of-Experts (MoE)-Architektur mit insgesamt 30 Milliarden Parametern und ist in der Lage, Bildinhalte tiefgreifend zu verstehen und in natürlich fließende Textbeschreibungen umzuwandeln. Es überzeugt durch exzellente Leistungen in Bereichen wie Detailerkennung, Szenenverständnis, Objekterkennung und Beziehungslogik und eignet sich besonders für Anwendungen, die präzises Bildverständnis und Beschreibungsgenerierung erfordern."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct ist ein Modell aus der neuesten Qwen3-Serie des Alibaba Tongyi Qianwen-Teams. Es handelt sich um ein Mixture-of-Experts (MoE)-Modell mit insgesamt 30 Milliarden Parametern und 3 Milliarden aktiven Parametern, das starke Leistung bei gleichzeitig reduzierten Inferenzkosten bietet. Das Modell wurde mit hochwertigen, vielfältigen und mehrsprachigen Daten trainiert und verfügt über umfassende Fähigkeiten zur Verarbeitung multimodaler Eingaben, darunter Text, Bild, Audio und Video. Es kann Inhalte über verschiedene Modalitäten hinweg verstehen und generieren."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking ist die zentrale \"Denkkomponente\" (Thinker) innerhalb des multimodalen Qwen3-Omni-Modells. Sie ist speziell dafür konzipiert, komplexe Denkketten und Schlussfolgerungen über multimodale Eingaben wie Text, Audio, Bilder und Videos hinweg zu verarbeiten. Als das \"Gehirn\" der Inferenz vereinheitlicht dieses Modell alle Eingaben in einem gemeinsamen Repräsentationsraum und ermöglicht so tiefes Verständnis und komplexe Schlussfolgerungen über Modalitäten hinweg. Es basiert auf einer Mixture-of-Experts (MoE)-Architektur mit 30 Milliarden Gesamtparametern und 3 Milliarden aktiven Parametern und bietet starke Inferenzfähigkeiten bei optimierter Rechenleistung."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct ist ein groß angelegtes, instruktional feinabgestimmtes Modell der Qwen3-VL-Serie. Es basiert auf einer Mixture-of-Experts (MoE)-Architektur und bietet herausragende multimodale Verständnis- und Generierungsfähigkeiten. Mit nativer Unterstützung für 256K Kontextlänge eignet es sich ideal für hochgradig parallele, produktionsreife multimodale Dienste."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking ist die reasoning-optimierte Version (Thinking) der Qwen3-VL-Serie. Sie wurde für multimodale Schlussfolgerungen, Bild-zu-Code-Generierung und komplexe visuelle Verständnisaufgaben optimiert. Mit Unterstützung für 256K Kontext bietet sie eine verbesserte Fähigkeit zum kettenbasierten Denken."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct ist ein visuelles Sprachmodell des Alibaba Tongyi Qianwen-Teams, das in mehreren Benchmarks für visuelle Sprachverarbeitung führende SOTA-Ergebnisse erzielt hat. Das Modell unterstützt hochauflösende Bildeingaben im Megapixelbereich und bietet starke Fähigkeiten in allgemeinem visuellen Verständnis, mehrsprachiger Texterkennung (OCR), feinkörniger visueller Lokalisierung und visueller Dialogführung. Als Teil der Qwen3-Serie ist es in der Lage, komplexe multimodale Aufgaben zu bewältigen und unterstützt fortgeschrittene Funktionen wie Tool-Aufrufe und Präfix-Fortsetzungen."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking ist eine speziell für komplexe visuelle Schlussfolgerungsaufgaben optimierte Version des visuellen Sprachmodells vom Alibaba Tongyi Qianwen-Team. Das Modell verfügt über einen integrierten \"Denkmodus\", der es ihm ermöglicht, vor der Beantwortung von Fragen detaillierte Zwischenschritte der Argumentation zu generieren. Dadurch wird seine Leistung bei Aufgaben mit mehrstufiger Logik, Planung und komplexem Denken erheblich verbessert. Es unterstützt hochauflösende Bildeingaben im Megapixelbereich und bietet starke Fähigkeiten in allgemeinem visuellen Verständnis, mehrsprachiger OCR, feinkörniger visueller Lokalisierung und visueller Dialogführung sowie Funktionen wie Tool-Aufrufe und Präfix-Fortsetzungen."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct ist ein visuelles Sprachmodell der Qwen3-Serie, basierend auf Qwen3-8B-Instruct und auf umfangreichen Bild-Text-Daten trainiert. Es ist spezialisiert auf allgemeines visuelles Verständnis, visuell zentrierte Dialoge und mehrsprachige Texterkennung in Bildern. Es eignet sich für Szenarien wie visuelle Frage-Antwort-Systeme, Bildbeschreibungen, multimodale Befehlsausführung und Tool-Integration."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct bietet zuverlässige Anweisungsverarbeitungsfähigkeiten und unterstützt Anwendungen in verschiedenen Branchen."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR ist ein visuelles Sprachmodell von DeepSeek AI, das sich auf optische Zeichenerkennung (OCR) und \"kontextuelle optische Kompression\" spezialisiert hat. Das Modell zielt darauf ab, die Grenzen der Kontextkompression aus Bildern auszuloten und kann Dokumente effizient verarbeiten und in strukturierte Textformate wie Markdown umwandeln. Es erkennt Textinhalte in Bildern präzise und eignet sich besonders für Anwendungen wie Dokumentendigitalisierung, Textextraktion und strukturierte Verarbeitung."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 ist ein durch verstärkendes Lernen (RL) gesteuertes Inferenzmodell, das die Probleme der Wiederholbarkeit und Lesbarkeit im Modell löst. Vor dem RL führte DeepSeek-R1 Kaltstartdaten ein, um die Inferenzleistung weiter zu optimieren. Es zeigt in mathematischen, programmierbezogenen und Inferenzaufgaben eine vergleichbare Leistung zu OpenAI-o1 und verbessert durch sorgfältig gestaltete Trainingsmethoden die Gesamteffizienz."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B ist ein Open-Source-Sprachmodell von Google, das neue Maßstäbe in Effizienz und Leistung setzt."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B ist ein Open-Source-Sprachmodell von Google, das neue Maßstäbe in Effizienz und Leistung setzt."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B ist ein Open-Source-Sprachmodell von Google, das neue Maßstäbe in Bezug auf Effizienz und Leistung setzt."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct verfügt über 80 Milliarden Parameter, von denen 13 Milliarden aktiviert werden können, um mit größeren Modellen zu konkurrieren. Es unterstützt eine hybride Denkweise aus „schnellem Denken/langsamem Denken“; die Verarbeitung langer Texte ist stabil; durch BFCL-v3 und τ-Bench validiert, übertrifft die Agentenfähigkeit andere Modelle; in Kombination mit GQA und mehreren Quantisierungsformaten ermöglicht es effiziente Inferenz."
},
"tencent/Hunyuan-MT-7B": {
"description": "Das Hunyuan-Übersetzungsmodell besteht aus dem Übersetzungsmodell Hunyuan-MT-7B und dem integrierten Modell Hunyuan-MT-Chimera. Hunyuan-MT-7B ist ein leichtgewichtiges Übersetzungsmodell mit 7 Milliarden Parametern, das Quelltexte in Zielsprache übersetzt. Es unterstützt Übersetzungen zwischen 33 Sprachen sowie 5 chinesischen Minderheitensprachen. Beim internationalen WMT25-Maschinenübersetzungswettbewerb belegte Hunyuan-MT-7B in 30 von 31 teilnehmenden Sprachpaaren den ersten Platz und demonstrierte damit seine herausragende Übersetzungsleistung. Für Übersetzungsszenarien hat Tencent Hunyuan ein vollständiges Trainingsparadigma entwickelt von Pretraining über überwachtes Fine-Tuning bis hin zu Übersetzungsverstärkung und integrierter Optimierung und damit branchenführende Leistung bei vergleichbarer Modellgröße erreicht. Das Modell ist recheneffizient, leicht zu implementieren und für vielfältige Anwendungsszenarien geeignet."
},
"text-embedding-3-large": {
"description": "Das leistungsstärkste Vektormodell, geeignet für englische und nicht-englische Aufgaben."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: A large-scale model based on Mixture-of-Experts, offering an efficient expert activation strategy for superior inference performance."
},
"MiniMax-M1": {
"description": "A brand-new self-developed inference model. Globally leading: 80K reasoning chains x 1M input, performance comparable to top overseas models."
"description": "A newly developed inference model. World-leading: 80K chain-of-thought x 1M input, delivering performance on par with top-tier international models."
},
"MiniMax-M2": {
"description": "Purpose-built for efficient coding and agent workflows."
},
"MiniMax-Text-01": {
"description": "In the MiniMax-01 series of models, we have made bold innovations: for the first time, we have implemented a linear attention mechanism on a large scale, making the traditional Transformer architecture no longer the only option. This model has a parameter count of up to 456 billion, with a single activation of 45.9 billion. Its overall performance rivals that of top overseas models while efficiently handling the world's longest context of 4 million tokens, which is 32 times that of GPT-4o and 20 times that of Claude-3.5-Sonnet."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking is the next-generation foundational model released by Alibaba's Tongyi Qianwen team, specifically designed for complex reasoning tasks. It is based on the innovative Qwen3-Next architecture, which integrates a hybrid attention mechanism (Gated DeltaNet and Gated Attention) and a highly sparse mixture-of-experts (MoE) structure, aiming for ultimate training and inference efficiency. As a sparse model with a total of 80 billion parameters, it activates only about 3 billion parameters during inference, greatly reducing computational costs. When processing long-context tasks exceeding 32K tokens, its throughput is more than 10 times higher than the Qwen3-32B model. This \"Thinking\" version is optimized for executing challenging multi-step tasks such as mathematical proofs, code synthesis, logical analysis, and planning, and by default outputs the reasoning process in a structured \"chain-of-thought\" format. In terms of performance, it not only surpasses higher-cost models like Qwen3-32B-Thinking but also outperforms Gemini-2.5-Flash-Thinking on multiple benchmarks."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner is a vision-language model (VLM) from Alibaba's Qwen3 series, developed by the Tongyi Qianwen team. It is specifically designed to generate high-quality, detailed, and accurate image captions. Built on a 30-billion-parameter Mixture of Experts (MoE) architecture, the model excels at understanding image content and converting it into natural, fluent textual descriptions. It demonstrates outstanding performance in capturing image details, scene understanding, object recognition, and relational reasoning, making it ideal for applications requiring precise image comprehension and caption generation."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct is part of the latest Qwen3 series from Alibaba's Tongyi Qianwen team. This Mixture of Experts (MoE) model features 30 billion total parameters and 3 billion active parameters, offering powerful performance while reducing inference costs. Trained on high-quality, diverse, and multilingual data, it boasts strong general capabilities and supports full-modality input processing—including text, images, audio, and video—enabling it to understand and generate cross-modal content."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking is the core 'Thinker' component of the Qwen3-Omni multimodal model. It is designed to handle complex chain-of-thought reasoning across multiple modalities, including text, audio, images, and video. Acting as the reasoning engine, it unifies all inputs into a shared representation space, enabling deep cross-modal understanding and sophisticated reasoning. Built on a Mixture of Experts (MoE) architecture with 30 billion total parameters and 3 billion active parameters, it balances powerful reasoning capabilities with computational efficiency."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct is a large instruction-tuned model in the Qwen3-VL series. Based on a Mixture of Experts (MoE) architecture, it offers exceptional multimodal understanding and generation capabilities. With native support for 256K context length, it is well-suited for high-concurrency, production-grade multimodal services."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking is the reasoning-enhanced version of Qwen3-VL. It is optimized for multimodal reasoning, image-to-code tasks, and complex visual understanding. Supporting 256K context length, it offers stronger chain-of-thought capabilities."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct is a vision-language model developed by Alibaba's Tongyi Qianwen team, achieving state-of-the-art (SOTA) performance across multiple vision-language benchmarks. It supports high-resolution image inputs at the megapixel level and offers robust general visual understanding, multilingual OCR, fine-grained visual localization, and visual dialogue capabilities. As part of the Qwen3 series, it is equipped to handle complex multimodal tasks and supports advanced features such as tool invocation and prefix continuation."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking is a specialized version of Alibaba's Qwen3 vision-language model, optimized for complex visual reasoning tasks. It features a built-in 'thinking mode' that enables the model to generate detailed intermediate reasoning steps before answering, significantly enhancing its performance on tasks requiring multi-step logic, planning, and complex inference. The model supports high-resolution image inputs at the megapixel level and offers strong general visual understanding, multilingual OCR, fine-grained visual localization, and visual dialogue capabilities, along with support for tool invocation and prefix continuation."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct is a vision-language model from the Qwen3 series, built on Qwen3-8B-Instruct and trained on a large corpus of image-text data. It excels at general visual understanding, vision-centric dialogue, and multilingual text recognition within images. It is well-suited for tasks such as visual question answering, image captioning, multimodal instruction following, and tool invocation."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct provides highly reliable instruction processing capabilities, supporting applications across multiple industries."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR is a vision-language model developed by DeepSeek AI, focused on Optical Character Recognition (OCR) and 'contextual optical compression.' The model explores the limits of compressing contextual information from images and efficiently processes documents into structured text formats such as Markdown. It accurately recognizes textual content within images, making it particularly suitable for document digitization, text extraction, and structured data processing applications."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 is a reinforcement learning (RL) driven inference model that addresses issues of repetitiveness and readability within the model. Prior to RL, DeepSeek-R1 introduced cold start data to further optimize inference performance. It performs comparably to OpenAI-o1 in mathematical, coding, and reasoning tasks, and enhances overall effectiveness through meticulously designed training methods."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B is an open-source language model from Google that sets new standards in efficiency and performance."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B is an open-source language model from Google that sets new standards in efficiency and performance."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B is an open-source language model from Google that sets new standards in efficiency and performance."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct has 80 billion parameters, with 13 billion activated parameters matching the performance of larger models. It supports hybrid reasoning with 'fast thinking/slow thinking'; offers stable long-text comprehension; validated by BFCL-v3 and τ-Bench, demonstrating leading agent capabilities; integrates GQA and multiple quantization formats for efficient inference."
},
"tencent/Hunyuan-MT-7B": {
"description": "The Hunyuan Translation Model consists of the Hunyuan-MT-7B translation model and the integrated Hunyuan-MT-Chimera model. Hunyuan-MT-7B is a lightweight translation model with 7 billion parameters, designed to translate source text into target languages. It supports translation across 33 languages and 5 Chinese minority languages. In the WMT25 international machine translation competition, Hunyuan-MT-7B ranked first in 30 out of 31 language categories it participated in, showcasing its exceptional translation capabilities. Tencent's Hunyuan team has developed a comprehensive training paradigm for translation, encompassing pretraining, supervised fine-tuning, translation reinforcement, and integrated enhancement, achieving industry-leading performance among models of similar scale. The model is highly efficient and easy to deploy, making it suitable for a wide range of applications."
},
"text-embedding-3-large": {
"description": "The most powerful vectorization model, suitable for both English and non-English tasks."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: modelo a gran escala basado en Mixture-of-Experts, que ofrece una estrategia eficiente de activación de expertos para un rendimiento sobresaliente en inferencia."
},
"MiniMax-M1": {
"description": "Modelo de inferencia de desarrollo propio completamente nuevo. Líder mundial: 80K cadenas de pensamiento x 1M de entradas, con un rendimiento comparable a los modelos de vanguardia internacionales."
"description": "Modelo de inferencia de desarrollo propio completamente nuevo. Líder mundial: 80K cadenas de pensamiento x 1M de entradas, con un rendimiento comparable a los modelos más avanzados del extranjero."
},
"MiniMax-M2": {
"description": "Diseñado específicamente para una codificación eficiente y flujos de trabajo con agentes."
},
"MiniMax-Text-01": {
"description": "En la serie de modelos MiniMax-01, hemos realizado una innovación audaz: la implementación a gran escala del mecanismo de atención lineal, donde la arquitectura Transformer tradicional ya no es la única opción. Este modelo tiene una cantidad de parámetros de hasta 456 mil millones, con 45.9 mil millones por activación. El rendimiento general del modelo es comparable a los mejores modelos internacionales, y puede manejar de manera eficiente contextos de hasta 4 millones de tokens, que es 32 veces más que GPT-4o y 20 veces más que Claude-3.5-Sonnet."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking es un modelo base de próxima generación lanzado por el equipo Tongyi Qianwen de Alibaba, diseñado específicamente para tareas complejas de razonamiento. Basado en la innovadora arquitectura Qwen3-Next, que integra mecanismos de atención híbrida (Gated DeltaNet y Gated Attention) y una estructura de expertos mixtos altamente dispersos (MoE), busca alcanzar una eficiencia extrema en entrenamiento e inferencia. Como modelo disperso con 80 mil millones de parámetros totales, solo activa alrededor de 3 mil millones durante la inferencia, reduciendo considerablemente el costo computacional. En tareas de contexto largo que superan los 32K tokens, su rendimiento es más de 10 veces superior al modelo Qwen3-32B. Esta versión “Thinking” está optimizada para ejecutar tareas complejas de múltiples pasos como demostraciones matemáticas, síntesis de código, análisis lógico y planificación, y por defecto produce el proceso de razonamiento en forma estructurada de “cadena de pensamiento”. En rendimiento, supera no solo a modelos más costosos como Qwen3-32B-Thinking, sino también a Gemini-2.5-Flash-Thinking en múltiples benchmarks."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner es un modelo de lenguaje visual (VLM) de la serie Qwen3 del equipo Qwen de Alibaba. Está diseñado para generar descripciones de imágenes de alta calidad, detalladas y precisas. Basado en una arquitectura de expertos mixtos (MoE) con un total de 30 mil millones de parámetros, el modelo puede comprender profundamente el contenido visual y convertirlo en descripciones textuales naturales y fluidas. Destaca en la captura de detalles visuales, comprensión de escenas, reconocimiento de objetos y razonamiento relacional, siendo ideal para aplicaciones que requieren una comprensión precisa de imágenes y generación de descripciones."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct es parte de la última serie Qwen3 del equipo Qwen de Alibaba. Es un modelo de expertos mixtos (MoE) con 30 mil millones de parámetros totales y 3 mil millones de parámetros activos, que mantiene un alto rendimiento mientras reduce los costos de inferencia. Entrenado con datos de alta calidad, multifuente y multilingües, posee una gran capacidad general y admite entradas multimodales, incluyendo texto, imágenes, audio y video, permitiendo la comprensión y generación de contenido entre modalidades."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking es el componente central \"pensante\" (Thinker) del modelo multimodal Qwen3-Omni. Está diseñado para procesar entradas multimodales como texto, audio, imágenes y video, y realizar razonamientos complejos en cadena. Como el cerebro del sistema de inferencia, este modelo unifica todas las entradas en un espacio de representación común, logrando una comprensión profunda y razonamiento complejo entre modalidades. Basado en una arquitectura de expertos mixtos (MoE), cuenta con 30 mil millones de parámetros totales y 3 mil millones de parámetros activos, optimizando la eficiencia computacional sin sacrificar capacidad de razonamiento."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct es un modelo de ajuste fino basado en instrucciones de gran escala de la serie Qwen3-VL. Basado en una arquitectura de expertos mixtos (MoE), ofrece una capacidad sobresaliente de comprensión y generación multimodal, con soporte nativo para contextos de hasta 256K, ideal para servicios multimodales de nivel de producción con alta concurrencia."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking es la versión mejorada para razonamiento (Thinking) de Qwen3-VL, optimizada para tareas de razonamiento multimodal, conversión de imágenes a código y comprensión visual compleja. Soporta contextos de hasta 256K y posee una capacidad mejorada de razonamiento en cadena."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct es un modelo de lenguaje visual desarrollado por el equipo Qwen de Alibaba, que ha alcanzado un rendimiento SOTA líder en múltiples pruebas de referencia de lenguaje visual. Admite imágenes de alta resolución a nivel de megapíxeles y posee una potente capacidad de comprensión visual general, OCR multilingüe, localización visual de alta precisión y diálogo visual. Como parte de la serie Qwen3, este modelo puede manejar tareas multimodales complejas y admite funciones avanzadas como llamadas a herramientas y generación de texto con prefijos."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking es una versión optimizada del modelo de lenguaje visual de la serie Qwen3 del equipo Qwen de Alibaba, diseñada específicamente para tareas de razonamiento visual complejo. Incorpora un \"modo de pensamiento\" que le permite generar pasos intermedios detallados antes de responder, mejorando significativamente su rendimiento en tareas que requieren lógica multietapa, planificación y razonamiento complejo. Admite imágenes de alta resolución a nivel de megapíxeles, y cuenta con sólidas capacidades de comprensión visual general, OCR multilingüe, localización visual precisa y diálogo visual, además de funciones como llamadas a herramientas y generación con prefijos."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct es un modelo de lenguaje visual de la serie Qwen3, desarrollado a partir de Qwen3-8B-Instruct y entrenado con grandes volúmenes de datos de texto e imagen. Se especializa en comprensión visual general, diálogos centrados en lo visual y reconocimiento multilingüe de texto en imágenes. Es adecuado para tareas como preguntas y respuestas visuales, descripción de imágenes, seguimiento de instrucciones multimodales y activación de herramientas."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct ofrece capacidades de procesamiento de instrucciones de alta fiabilidad, soportando aplicaciones en múltiples industrias."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR es un modelo de lenguaje visual desarrollado por DeepSeek AI, enfocado en el reconocimiento óptico de caracteres (OCR) y la \"compresión óptica contextual\". Este modelo explora los límites de la compresión de información contextual a partir de imágenes, permitiendo procesar documentos de manera eficiente y convertirlos en formatos de texto estructurado como Markdown. Es capaz de reconocer con precisión el contenido textual en imágenes, siendo especialmente útil para digitalización de documentos, extracción de texto y procesamiento estructurado."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 es un modelo de inferencia impulsado por aprendizaje reforzado (RL) que aborda los problemas de repetitividad y legibilidad en el modelo. Antes de RL, DeepSeek-R1 introdujo datos de arranque en frío, optimizando aún más el rendimiento de la inferencia. Su desempeño en tareas matemáticas, de código e inferencia es comparable al de OpenAI-o1, y ha mejorado su efectividad general a través de métodos de entrenamiento cuidadosamente diseñados."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B es un modelo de lenguaje de código abierto de Google que establece nuevos estándares en eficiencia y rendimiento."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B es un modelo de lenguaje de código abierto de Google que establece nuevos estándares en eficiencia y rendimiento."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B es un modelo de lenguaje de código abierto de Google, que establece nuevos estándares en eficiencia y rendimiento."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct cuenta con 80 mil millones de parámetros, activando solo 13 mil millones para igualar modelos más grandes, soporta razonamiento híbrido de \"pensamiento rápido/pensamiento lento\"; comprensión estable de textos largos; validado por BFCL-v3 y τ-Bench, con capacidades avanzadas de agente; combina GQA y múltiples formatos de cuantificación para lograr inferencias eficientes."
},
"tencent/Hunyuan-MT-7B": {
"description": "El modelo de traducción Hunyuan (Hunyuan Translation Model) está compuesto por el modelo de traducción Hunyuan-MT-7B y el modelo integrado Hunyuan-MT-Chimera. Hunyuan-MT-7B es un modelo de traducción ligero con 7 mil millones de parámetros, diseñado para traducir texto fuente a un idioma objetivo. Admite traducción entre 33 idiomas y 5 lenguas minoritarias chinas. En la competencia internacional de traducción automática WMT25, Hunyuan-MT-7B obtuvo el primer lugar en 30 de las 31 categorías lingüísticas en las que participó, demostrando su sobresaliente capacidad de traducción. Para escenarios de traducción, Tencent Hunyuan ha propuesto un paradigma de entrenamiento completo que abarca desde el preentrenamiento hasta el ajuste supervisado, seguido de refuerzo para traducción e integración, logrando un rendimiento líder en la industria entre modelos de tamaño similar. El modelo es eficiente en cómputo, fácil de implementar y adecuado para múltiples aplicaciones."
},
"text-embedding-3-large": {
"description": "El modelo de vectorización más potente, adecuado para tareas en inglés y no inglés."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: مدل بزرگ مبتنی بر معماری Mixture-of-Experts که استراتژی فعال‌سازی کارآمد کارشناسان را برای عملکرد برتر در استنتاج ارائه می‌دهد."
},
"MiniMax-M1": {
"description": "مدل استنتاج کاملاً توسعه‌یافته داخلی. پیشرو در جهان: ۸۰ هزار زنجیره فکری در برابر ۱ میلیون ورودی، عملکردی برابر با مدل‌های برتر خارجی."
"description": "مدل استنتاجی جدید با تحقیق و توسعه داخلی. پیشرو در جهان: زنجیره تفکر ۸۰ هزار مرحله‌ای × ورودی ۱ میلیون، عملکردی هم‌تراز با برترین مدل‌های بین‌المللی"
},
"MiniMax-M2": {
"description": "طراحی‌شده برای کدنویسی کارآمد و جریان کاری عامل‌ها (Agents)"
},
"MiniMax-Text-01": {
"description": "در سری مدل‌های MiniMax-01، ما نوآوری‌های جسورانه‌ای انجام داده‌ایم: برای اولین بار مکانیزم توجه خطی را به طور وسیع پیاده‌سازی کرده‌ایم و معماری سنتی Transformer دیگر تنها گزینه نیست. این مدل دارای 456 میلیارد پارامتر است که در یک بار فعال‌سازی 45.9 میلیارد است. عملکرد کلی این مدل با بهترین مدل‌های خارجی برابری می‌کند و در عین حال می‌تواند به طور مؤثر به متن‌های طولانی جهانی با 4 میلیون توکن رسیدگی کند، که 32 برابر GPT-4o و 20 برابر Claude-3.5-Sonnet است."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking مدلی پایه نسل بعدی است که توسط تیم Tongyi Qianwen شرکت علی‌بابا برای وظایف استنتاج پیچیده طراحی شده است. این مدل بر اساس معماری نوآورانه Qwen3-Next ساخته شده که مکانیزم توجه ترکیبی (Gated DeltaNet و Gated Attention) و ساختار متخصص ترکیبی با پراکندگی بالا (MoE) را ادغام می‌کند تا به بالاترین کارایی در آموزش و استنتاج دست یابد. به عنوان یک مدل پراکنده با ۸۰ میلیارد پارامتر کل، در زمان استنتاج تنها حدود ۳ میلیارد پارامتر فعال می‌شوند که هزینه محاسباتی را به طور چشمگیری کاهش می‌دهد و در پردازش وظایف با زمینه طولانی بیش از ۳۲ هزار توکن، توان عملیاتی آن بیش از ۱۰ برابر مدل Qwen3-32B است. این نسخه «Thinking» به طور خاص برای انجام وظایف چندمرحله‌ای دشوار مانند اثبات ریاضی، ترکیب کد، تحلیل منطقی و برنامه‌ریزی بهینه شده و به طور پیش‌فرض فرایند استنتاج را به صورت ساختاریافته و در قالب «زنجیره فکری» ارائه می‌دهد. از نظر عملکرد، این مدل نه تنها از مدل‌های پرهزینه‌تر مانند Qwen3-32B-Thinking پیشی گرفته، بلکه در چندین بنچمارک از Gemini-2.5-Flash-Thinking نیز بهتر عمل می‌کند."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner یکی از مدل‌های زبان تصویری (VLM) سری Qwen3 از تیم Tongyi Qianwen شرکت علی‌بابا است. این مدل به‌طور خاص برای تولید توصیف‌های تصویری با کیفیت بالا، دقیق و جزئی طراحی شده است. با بهره‌گیری از معماری متخصصان ترکیبی (MoE) با ۳۰ میلیارد پارامتر کلی، این مدل توانایی درک عمیق محتوای تصویر و تبدیل آن به توصیف‌های متنی روان و طبیعی را دارد. عملکرد برجسته‌ای در زمینه‌هایی مانند درک صحنه، شناسایی اشیاء، استنتاج روابط و ثبت جزئیات تصویری دارد و برای کاربردهایی که نیاز به درک دقیق تصویر و تولید توصیف دارند، بسیار مناسب است."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct یکی از جدیدترین مدل‌های سری Qwen3 از تیم Tongyi Qianwen شرکت علی‌بابا است. این مدل با معماری متخصصان ترکیبی (MoE) دارای ۳۰ میلیارد پارامتر کلی و ۳ میلیارد پارامتر فعال است که در عین حفظ عملکرد قدرتمند، هزینه استنتاج را کاهش می‌دهد. این مدل با داده‌های با کیفیت، چندمنبعی و چندزبانه آموزش دیده و توانایی عمومی بالایی دارد. از ورودی‌های چندحالته شامل متن، تصویر، صوت و ویدیو پشتیبانی می‌کند و قادر به درک و تولید محتوای میان‌حالتی است."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking بخش اصلی «تفکر» (Thinker) در مدل چندحالته Qwen3-Omni است. این مدل به‌طور خاص برای پردازش ورودی‌های چندحالته شامل متن، صوت، تصویر و ویدیو و انجام استنتاج‌های زنجیره‌ای پیچیده طراحی شده است. به‌عنوان مغز استنتاج، این مدل تمام ورودی‌ها را به فضای بازنمایی مشترک تبدیل می‌کند تا درک عمیق و استنتاج میان‌حالتی را ممکن سازد. با بهره‌گیری از معماری MoE و ۳۰ میلیارد پارامتر کلی و ۳ میلیارد پارامتر فعال، این مدل در عین حفظ توانایی استنتاج قوی، بهره‌وری محاسباتی را نیز بهینه می‌کند."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct یک مدل بزرگ تنظیم‌شده با دستورالعمل از سری Qwen3-VL است که بر پایه معماری متخصصان ترکیبی (MoE) ساخته شده و توانایی برجسته‌ای در درک و تولید چندرسانه‌ای دارد. این مدل به‌صورت بومی از زمینه متنی ۲۵۶ هزار توکن پشتیبانی می‌کند و برای خدمات چندرسانه‌ای در سطح تولید با هم‌زمانی بالا مناسب است."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking نسخه تقویت‌شده برای استدلال (Thinking) از سری Qwen3-VL است که برای وظایف استدلال چندرسانه‌ای، تبدیل تصویر به کد و درک پیچیده بصری بهینه‌سازی شده است. این مدل از زمینه متنی ۲۵۶ هزار توکن پشتیبانی می‌کند و توانایی بالایی در تفکر زنجیره‌ای دارد."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct یک مدل زبان تصویری از تیم Tongyi Qianwen شرکت علی‌بابا است که در چندین آزمون معیار زبان تصویری به عملکرد SOTA (بهترین در نوع خود) دست یافته است. این مدل از ورودی‌های تصویری با وضوح بالا در سطح میلیون پیکسل پشتیبانی می‌کند و دارای توانایی‌های قدرتمند درک تصویری عمومی، OCR چندزبانه، مکان‌یابی دقیق بصری و گفت‌وگوی تصویری است. به‌عنوان بخشی از سری Qwen3، این مدل می‌تواند وظایف پیچیده چندحالته را پردازش کرده و از قابلیت‌هایی مانند فراخوانی ابزار و ادامه‌نویسی پیشوندی پشتیبانی کند."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking نسخه‌ای بهینه‌شده از مدل زبان تصویری تیم Tongyi Qianwen شرکت علی‌بابا است که به‌طور خاص برای وظایف استنتاج تصویری پیچیده طراحی شده است. این مدل دارای «حالت تفکر» داخلی است که به آن امکان می‌دهد پیش از پاسخ‌گویی، مراحل میانی استنتاج را به‌صورت دقیق تولید کند و در نتیجه عملکرد آن در وظایف نیازمند منطق چندمرحله‌ای، برنامه‌ریزی و استنتاج پیچیده به‌طور چشمگیری بهبود می‌یابد. این مدل از ورودی‌های تصویری با وضوح بالا در سطح میلیون پیکسل پشتیبانی می‌کند و دارای توانایی‌های قدرتمند درک تصویری عمومی، OCR چندزبانه، مکان‌یابی دقیق بصری و گفت‌وگوی تصویری است و همچنین از قابلیت‌هایی مانند فراخوانی ابزار و ادامه‌نویسی پیشوندی پشتیبانی می‌کند."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct یکی از مدل‌های زبان-بینایی از سری Qwen3 است که بر پایه Qwen3-8B-Instruct توسعه یافته و با حجم زیادی از داده‌های متنی-تصویری آموزش دیده است. این مدل در درک عمومی بصری، گفت‌وگوهای مبتنی بر تصویر و شناسایی متون چندزبانه در تصاویر مهارت دارد. مناسب برای کاربردهایی مانند پرسش و پاسخ بصری، توصیف تصویر، پیروی از دستورات چندوجهی و فراخوانی ابزارها می‌باشد."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct قابلیت پردازش دستورات با قابلیت اطمینان بالا را فراهم می‌کند و از کاربردهای چندین صنعت پشتیبانی می‌کند."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR یک مدل زبان تصویری از شرکت DeepSeek AI است که بر شناسایی نویسه نوری (OCR) و «فشرده‌سازی نوری متنی» تمرکز دارد. این مدل با هدف بررسی مرزهای فشرده‌سازی اطلاعات متنی از تصاویر طراحی شده و می‌تواند اسناد را به‌طور مؤثر پردازش کرده و آن‌ها را به قالب‌های متنی ساختاریافته مانند Markdown تبدیل کند. این مدل توانایی شناسایی دقیق محتوای متنی در تصاویر را دارد و برای کاربردهایی مانند دیجیتالی‌سازی اسناد، استخراج متن و پردازش ساختاریافته بسیار مناسب است."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 یک مدل استنتاجی مبتنی بر یادگیری تقویتی (RL) است که به مشکلات تکرار و خوانایی در مدل پرداخته است. قبل از RL، DeepSeek-R1 داده‌های شروع سرد را معرفی کرد و عملکرد استنتاج را بهینه‌تر کرد. این مدل در وظایف ریاضی، کدنویسی و استنتاج با OpenAI-o1 عملکرد مشابهی دارد و با استفاده از روش‌های آموزشی به دقت طراحی شده، کیفیت کلی را بهبود بخشیده است."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B یک مدل زبان متن‌باز از گوگل است که استانداردهای جدیدی در زمینه کارایی و عملکرد ایجاد کرده است."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B یک مدل زبان متن‌باز از گوگل است که استانداردهای جدیدی در کارایی و عملکرد ایجاد کرده است."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B یک مدل زبان متن باز از گوگل است که استانداردهای جدیدی را در زمینه کارایی و عملکرد تعیین کرده است."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct با ۸۰ میلیارد پارامتر، با فعال‌سازی ۱۳ میلیارد پارامتر قادر به رقابت با مدل‌های بزرگ‌تر است و از استدلال ترکیبی «تفکر سریع/تفکر کند» پشتیبانی می‌کند؛ درک متون بلند به صورت پایدار؛ توانایی عامل با تأیید BFCL-v3 و τ-Bench پیشرو است؛ با ترکیب GQA و چندین فرمت کوانتیزه‌سازی، استدلال کارآمد را محقق می‌سازد."
},
"tencent/Hunyuan-MT-7B": {
"description": "مدل ترجمه Hunyuan (Hunyuan Translation Model) شامل دو بخش است: مدل ترجمه Hunyuan-MT-7B و مدل ترکیبی Hunyuan-MT-Chimera. Hunyuan-MT-7B یک مدل ترجمه سبک‌وزن با ۷ میلیارد پارامتر است که برای ترجمه متن مبدأ به زبان مقصد طراحی شده است. این مدل از ترجمه بین ۳۳ زبان و ۵ زبان اقلیت چینی پشتیبانی می‌کند. در رقابت بین‌المللی ترجمه ماشینی WMT25، این مدل در ۳۰ مورد از ۳۱ زبان شرکت‌کننده رتبه اول را کسب کرد و توانایی ترجمه برجسته‌ای از خود نشان داد. تیم Hunyuan شرکت Tencent یک الگوی آموزشی کامل از پیش‌آموزش تا تنظیم نظارتی، تقویت ترجمه و تقویت ترکیبی ارائه کرده است که باعث شده این مدل در میان مدل‌های هم‌رده از نظر اندازه، عملکردی پیشرو داشته باشد. این مدل از بهره‌وری محاسباتی بالا و قابلیت استقرار آسان برخوردار است و برای کاربردهای متنوع مناسب است."
},
"text-embedding-3-large": {
"description": "قدرت‌مندترین مدل وکتور سازی، مناسب برای وظایف انگلیسی و غیرانگلیسی."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick : modèle à grande échelle basé sur le Mixture-of-Experts, offrant une stratégie d'activation experte efficace pour des performances optimales en inférence."
},
"MiniMax-M1": {
"description": "Modèle d'inférence entièrement développé en interne. Leader mondial : 80K chaînes de pensée x 1M d'entrées, des performances comparables aux meilleurs modèles internationaux."
"description": "Nouveau modèle d'inférence développé en interne. Leader mondial : 80K chaînes de raisonnement x 1M d'entrées, des performances comparables aux meilleurs modèles internationaux."
},
"MiniMax-M2": {
"description": "Conçu spécialement pour un codage efficace et les flux de travail des agents."
},
"MiniMax-Text-01": {
"description": "Dans la série de modèles MiniMax-01, nous avons réalisé une innovation audacieuse : la première mise en œuvre à grande échelle d'un mécanisme d'attention linéaire, rendant l'architecture Transformer traditionnelle non plus le seul choix. Ce modèle possède un nombre de paramètres atteignant 456 milliards, avec 45,9 milliards d'activations par instance. Les performances globales du modèle rivalisent avec celles des meilleurs modèles étrangers, tout en étant capable de traiter efficacement un contexte mondial de 4 millions de tokens, soit 32 fois celui de GPT-4o et 20 fois celui de Claude-3.5-Sonnet."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking est un modèle de base de nouvelle génération publié par l'équipe Tongyi Qianwen d'Alibaba, spécialement conçu pour les tâches de raisonnement complexes. Il repose sur l'architecture innovante Qwen3-Next, qui intègre un mécanisme d'attention hybride (Gated DeltaNet et Gated Attention) et une structure d'experts mixtes à haute sparsité (MoE), visant une efficacité extrême en entraînement et inférence. En tant que modèle sparse totalisant 80 milliards de paramètres, il n'active qu'environ 3 milliards de paramètres lors de l'inférence, réduisant significativement les coûts de calcul. Pour les tâches à contexte long dépassant 32K tokens, son débit est plus de 10 fois supérieur à celui du modèle Qwen3-32B. Cette version « Thinking » est optimisée pour exécuter des tâches complexes à étapes multiples telles que preuves mathématiques, synthèse de code, analyse logique et planification, et produit par défaut le processus de raisonnement sous forme structurée de « chaîne de pensée ». En termes de performance, il dépasse non seulement des modèles plus coûteux comme Qwen3-32B-Thinking, mais surpasse également Gemini-2.5-Flash-Thinking sur plusieurs benchmarks."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner est un modèle de langage visuel (VLM) de la série Qwen3 développé par l'équipe Tongyi Qianwen d'Alibaba. Il est spécialement conçu pour générer des descriptions d'images de haute qualité, détaillées et précises. Basé sur une architecture d'experts mixtes (MoE) avec un total de 30 milliards de paramètres, ce modèle comprend en profondeur le contenu visuel et le traduit en descriptions textuelles naturelles et fluides. Il excelle dans la capture des détails visuels, la compréhension des scènes, la reconnaissance d'objets et le raisonnement relationnel, ce qui le rend idéal pour les applications nécessitant une compréhension et une description précises des images."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct est un modèle de la dernière série Qwen3 développé par l'équipe Tongyi Qianwen d'Alibaba. Il s'agit d'un modèle d'experts mixtes (MoE) avec 30 milliards de paramètres totaux et 3 milliards de paramètres activés, offrant de hautes performances tout en réduisant les coûts d'inférence. Entraîné sur des données de haute qualité, multilingues et provenant de sources variées, il possède de puissantes capacités générales et prend en charge les entrées multimodales, y compris le texte, l'image, l'audio et la vidéo, permettant la compréhension et la génération de contenus intermodaux."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking est le composant central \"penseur\" (Thinker) du modèle multimodal Qwen3-Omni. Il est conçu pour traiter des entrées multimodales telles que le texte, l'audio, l'image et la vidéo, et pour exécuter des chaînes de raisonnement complexes. En tant que cerveau de l'inférence, ce modèle unifie toutes les entrées dans un espace de représentation commun, permettant une compréhension approfondie et un raisonnement complexe intermodal. Basé sur une architecture d'experts mixtes (MoE) avec 30 milliards de paramètres totaux et 3 milliards de paramètres activés, il maintient une forte capacité de raisonnement tout en optimisant l'efficacité du calcul."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct est un grand modèle de la série Qwen3-VL, affiné par instructions, basé sur une architecture à experts mixtes (MoE). Il offre d'excellentes capacités de compréhension et de génération multimodales, prend en charge nativement un contexte de 256K, et convient aux services multimodaux de production à haute concurrence."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking est une version renforcée pour le raisonnement (Thinking) de Qwen3-VL, optimisée pour le raisonnement multimodal, la génération de code à partir d'images et les tâches complexes de compréhension visuelle. Elle prend en charge un contexte de 256K et dispose de capacités accrues de raisonnement en chaîne."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct est un modèle de langage visuel développé par l'équipe Tongyi Qianwen d'Alibaba, ayant atteint des performances SOTA sur plusieurs benchmarks de langage visuel. Il prend en charge des images haute résolution de niveau mégapixel et possède de puissantes capacités de compréhension visuelle générale, de reconnaissance optique multilingue (OCR), de localisation visuelle fine et de dialogue visuel. En tant que modèle de langage visuel de la série Qwen3, il est capable de gérer des tâches multimodales complexes et prend en charge des fonctions avancées telles que l'appel d'outils et la génération conditionnelle par préfixe."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking est une version optimisée du modèle de langage visuel développé par l'équipe Tongyi Qianwen d'Alibaba, spécialement conçue pour les tâches de raisonnement visuel complexe. Ce modèle intègre un \"mode de réflexion\" qui lui permet de générer des étapes de raisonnement intermédiaires détaillées avant de répondre, améliorant ainsi considérablement ses performances dans les tâches nécessitant une logique multi-étapes, de la planification et un raisonnement complexe. Il prend en charge des images haute résolution de niveau mégapixel, avec de solides capacités de compréhension visuelle générale, d'OCR multilingue, de localisation visuelle fine et de dialogue visuel, tout en prenant en charge l'appel d'outils et la génération conditionnelle par préfixe."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct est un modèle de langage visuel de la série Qwen3, développé à partir de Qwen3-8B-Instruct et entraîné sur un grand volume de données image-texte. Il excelle dans la compréhension visuelle générale, les dialogues centrés sur limage et la reconnaissance multilingue de texte dans les images. Il est adapté aux cas dusage tels que les questions-réponses visuelles, la description dimages, le suivi dinstructions multimodales et lappel doutils."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct offre des capacités de traitement d'instructions hautement fiables, prenant en charge des applications dans divers secteurs."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR est un modèle de langage visuel développé par DeepSeek AI, spécialisé dans la reconnaissance optique de caractères (OCR) et la \"compression optique contextuelle\". Ce modèle explore les limites de la compression d'informations contextuelles à partir d'images, permettant un traitement efficace des documents et leur conversion en formats de texte structurés tels que Markdown. Il est capable de reconnaître avec précision le contenu textuel des images, ce qui le rend particulièrement adapté à la numérisation de documents, à l'extraction de texte et au traitement structuré."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 est un modèle d'inférence alimenté par l'apprentissage par renforcement (RL), qui résout les problèmes de répétitivité et de lisibilité dans le modèle. Avant le RL, DeepSeek-R1 a introduit des données de démarrage à froid, optimisant ainsi les performances d'inférence. Il se compare à OpenAI-o1 en matière de tâches mathématiques, de code et d'inférence, et améliore l'efficacité globale grâce à des méthodes d'entraînement soigneusement conçues."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B est un modèle de langage open source de Google, établissant de nouvelles normes en matière d'efficacité et de performance."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B est un modèle de langage open source de Google, établissant de nouvelles normes en matière d'efficacité et de performance."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B est un modèle de langage open source de Google, qui a établi de nouvelles normes en matière d'efficacité et de performance."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct compte 80 milliards de paramètres, avec seulement 13 milliards activés pour rivaliser avec des modèles plus grands, supportant un raisonnement hybride « pensée rapide/pensée lente » ; compréhension stable des textes longs ; validé par BFCL-v3 et τ-Bench, ses capacités dagent sont en avance ; combinant GQA et plusieurs formats de quantification, il réalise un raisonnement efficace."
},
"tencent/Hunyuan-MT-7B": {
"description": "Le modèle de traduction Hunyuan est composé du modèle Hunyuan-MT-7B et du modèle intégré Hunyuan-MT-Chimera. Hunyuan-MT-7B est un modèle de traduction léger avec 7 milliards de paramètres, conçu pour traduire des textes sources vers des langues cibles. Il prend en charge la traduction entre 33 langues ainsi que 5 langues des minorités ethniques chinoises. Lors du concours international de traduction automatique WMT25, Hunyuan-MT-7B a obtenu la première place dans 30 des 31 catégories linguistiques auxquelles il a participé, démontrant ses capacités de traduction exceptionnelles. Pour les scénarios de traduction, Tencent Hunyuan a proposé un paradigme d'entraînement complet allant de la pré-formation à l'ajustement supervisé, puis au renforcement par traduction et à l'intégration renforcée, atteignant des performances de pointe parmi les modèles de taille équivalente. Ce modèle est efficace en calcul, facile à déployer et adapté à divers cas d'utilisation."
},
"text-embedding-3-large": {
"description": "Le modèle de vectorisation le plus puissant, adapté aux tâches en anglais et non-anglais."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: modello su larga scala basato su Mixture-of-Experts, offre una strategia efficiente di attivazione degli esperti per eccellere nell'inferenza."
},
"MiniMax-M1": {
"description": "Modello di inferenza completamente sviluppato internamente. Leader mondiale: 80K catene di pensiero x 1M input, prestazioni paragonabili ai migliori modelli internazionali."
"description": "Nuovo modello di inferenza sviluppato internamente. Leader a livello globale: 80K catene di pensiero x 1M input, prestazioni paragonabili ai migliori modelli internazionali."
},
"MiniMax-M2": {
"description": "Progettato per una codifica efficiente e flussi di lavoro con agenti."
},
"MiniMax-Text-01": {
"description": "Nella serie di modelli MiniMax-01, abbiamo fatto un'innovazione audace: per la prima volta abbiamo implementato su larga scala un meccanismo di attenzione lineare, rendendo l'architettura Transformer tradizionale non più l'unica opzione. Questo modello ha un numero di parametri che raggiunge i 456 miliardi, con un'attivazione singola di 45,9 miliardi. Le prestazioni complessive del modello sono paragonabili a quelle dei migliori modelli internazionali, mentre è in grado di gestire in modo efficiente contesti globali lunghi fino a 4 milioni di token, 32 volte rispetto a GPT-4o e 20 volte rispetto a Claude-3.5-Sonnet."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking è un modello di base di nuova generazione rilasciato dal team Tongyi Qianwen di Alibaba, progettato specificamente per compiti di ragionamento complesso. Basato sull'innovativa architettura Qwen3-Next, che integra un meccanismo di attenzione ibrida (Gated DeltaNet e Gated Attention) e una struttura di esperti misti ad alta sparsità (MoE), mira a massimizzare l'efficienza di addestramento e inferenza. Come modello sparso con un totale di 80 miliardi di parametri, attiva solo circa 3 miliardi di parametri durante l'inferenza, riducendo notevolmente i costi computazionali. Nelle attività con contesti lunghi oltre 32K token, il throughput supera di oltre 10 volte quello del modello Qwen3-32B. Questa versione “Thinking” è ottimizzata per eseguire compiti multi-step complessi come dimostrazioni matematiche, sintesi di codice, analisi logica e pianificazione, e produce di default il processo di ragionamento in forma strutturata di “catena di pensiero”. In termini di prestazioni, supera non solo modelli più costosi come Qwen3-32B-Thinking, ma anche Gemini-2.5-Flash-Thinking in diversi benchmark."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner è un modello linguistico-visivo (VLM) della serie Qwen3 sviluppata dal team Qwen di Alibaba Tongyi. È progettato per generare descrizioni di immagini di alta qualità, dettagliate e accurate. Basato su un'architettura MoE (Mixture of Experts) con 30 miliardi di parametri totali, il modello è in grado di comprendere a fondo il contenuto visivo e trasformarlo in descrizioni testuali fluide e naturali. Eccelle nella cattura dei dettagli visivi, comprensione delle scene, riconoscimento degli oggetti e ragionamento sulle relazioni, rendendolo ideale per applicazioni che richiedono una comprensione e descrizione precisa delle immagini."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct è un modello della nuova serie Qwen3 sviluppata dal team Qwen di Alibaba Tongyi. Si tratta di un modello MoE (Mixture of Experts) con 30 miliardi di parametri totali e 3 miliardi di parametri attivi, che mantiene elevate prestazioni riducendo al contempo i costi di inferenza. Addestrato su dati di alta qualità, multilingue e provenienti da fonti diverse, il modello possiede una forte capacità generale e supporta input multimodali, inclusi testo, immagini, audio e video, permettendo la comprensione e generazione di contenuti cross-modali."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking è il componente \"pensante\" (Thinker) centrale del modello multimodale Qwen3-Omni. È specializzato nell'elaborazione di input multimodali, tra cui testo, audio, immagini e video, ed esegue catene di ragionamento complesse. Come cervello dell'inferenza, unifica tutti gli input in uno spazio di rappresentazione comune, consentendo una comprensione profonda e un ragionamento complesso tra modalità diverse. Basato su un'architettura MoE con 30 miliardi di parametri totali e 3 miliardi di parametri attivi, ottimizza l'efficienza computazionale mantenendo una potente capacità di ragionamento."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct è un modello di grandi dimensioni della serie Qwen3-VL, ottimizzato tramite fine-tuning su istruzioni. Basato su un'architettura a esperti misti (MoE), offre eccellenti capacità di comprensione e generazione multimodale, supportando nativamente un contesto di 256K token. È adatto a servizi multimodali di livello produttivo con alta concorrenza."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking è la versione potenziata per il ragionamento della serie Qwen3-VL. Ottimizzata per compiti di inferenza multimodale, conversione da immagine a codice e comprensione visiva complessa, supporta un contesto di 256K token e offre capacità avanzate di ragionamento a catena."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct è un modello linguistico-visivo sviluppato dal team Qwen di Alibaba Tongyi, che ha raggiunto prestazioni SOTA in numerosi benchmark VLM. Supporta input di immagini ad alta risoluzione a livello di megapixel e offre una potente comprensione visiva generale, OCR multilingue, localizzazione visiva fine-grained e capacità di dialogo visivo. Come modello VLM della serie Qwen3, è in grado di gestire compiti multimodali complessi e supporta funzionalità avanzate come l'invocazione di strumenti e la continuazione di prefissi."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking è una versione ottimizzata per compiti di ragionamento visivo complesso del modello linguistico-visivo sviluppato dal team Qwen di Alibaba Tongyi. Integra una \"modalità pensiero\" che consente di generare passaggi intermedi di ragionamento prima di rispondere, migliorando significativamente le prestazioni in compiti che richiedono logica multi-step, pianificazione e ragionamento complesso. Supporta input di immagini ad alta risoluzione a livello di megapixel, con forti capacità di comprensione visiva generale, OCR multilingue, localizzazione visiva fine-grained e dialogo visivo, oltre a supportare l'invocazione di strumenti e la continuazione di prefissi."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct è un modello linguistico-visivo della serie Qwen3, sviluppato a partire da Qwen3-8B-Instruct e addestrato su un ampio corpus di dati immagine-testo. È specializzato nella comprensione visiva generale, nel dialogo centrato sulla visione e nel riconoscimento multilingue del testo all'interno delle immagini. È adatto a scenari come domande e risposte visive, descrizione di immagini, esecuzione di istruzioni multimodali e utilizzo di strumenti."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct offre capacità di elaborazione di istruzioni altamente affidabili, supportando applicazioni in vari settori."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR è un modello linguistico-visivo sviluppato da DeepSeek AI, focalizzato sul riconoscimento ottico dei caratteri (OCR) e sulla \"compressione ottica contestuale\". Il modello esplora i limiti della compressione delle informazioni contestuali dalle immagini, elaborando in modo efficiente documenti e convertendoli in formati di testo strutturato come Markdown. È in grado di riconoscere accuratamente il contenuto testuale nelle immagini, risultando particolarmente adatto per digitalizzazione di documenti, estrazione di testo e processi di strutturazione."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 è un modello di inferenza guidato da apprendimento rinforzato (RL) che affronta i problemi di ripetitività e leggibilità nel modello. Prima dell'RL, DeepSeek-R1 ha introdotto dati di cold start, ottimizzando ulteriormente le prestazioni di inferenza. Si comporta in modo comparabile a OpenAI-o1 in compiti matematici, di codifica e di inferenza, e migliora l'efficacia complessiva attraverso metodi di addestramento accuratamente progettati."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B è un modello linguistico open source di Google che ha stabilito nuovi standard in termini di efficienza e prestazioni."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B è un modello linguistico open source di Google che ha stabilito nuovi standard in termini di efficienza e prestazioni."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B è un modello linguistico open source di Google, che ha stabilito nuovi standard in termini di efficienza e prestazioni."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct ha 80 miliardi di parametri, ma attivando solo 13 miliardi di parametri può competere con modelli più grandi, supportando un ragionamento ibrido “pensiero veloce/pensiero lento”; garantisce una comprensione stabile di testi lunghi; validato da BFCL-v3 e τ-Bench, con capacità agent leader; integra GQA e formati multi-quantizzazione per un'inferenza efficiente."
},
"tencent/Hunyuan-MT-7B": {
"description": "Il modello di traduzione Hunyuan è composto dal modello Hunyuan-MT-7B e dal modello integrato Hunyuan-MT-Chimera. Hunyuan-MT-7B è un modello di traduzione leggero con 7 miliardi di parametri, progettato per tradurre testi dalla lingua sorgente a quella di destinazione. Supporta la traduzione tra 33 lingue e 5 lingue minoritarie cinesi. Alla competizione internazionale di traduzione automatica WMT25, Hunyuan-MT-7B ha ottenuto il primo posto in 30 delle 31 categorie linguistiche in cui ha partecipato, dimostrando eccellenti capacità di traduzione. Tencent Hunyuan ha proposto un paradigma di addestramento completo che va dal pre-addestramento al fine-tuning supervisionato, fino al rinforzo e all'integrazione per la traduzione, raggiungendo prestazioni leader nel settore tra i modelli della stessa scala. Il modello è altamente efficiente dal punto di vista computazionale, facile da distribuire e adatto a molteplici scenari applicativi."
},
"text-embedding-3-large": {
"description": "Il modello di vettorizzazione più potente, adatto per compiti in inglese e non inglese."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 MaverickMixture-of-Expertsに基づく大規模モデルで、効率的なエキスパート活性化戦略により推論性能を発揮します。"
},
"MiniMax-M1": {
"description": "新たに自社開発された推論モデル。世界最先端80Kの思考チェーン×1Mの入力で、海外のトップモデルに匹敵する性能を実現。"
"description": "全く新しい自社開発の推論モデル。世界最先端80Kの思考チェーン × 1Mの入力で、海外のトップモデルに匹敵する性能を実現"
},
"MiniMax-M2": {
"description": "効率的なコーディングとエージェントワークフローのために設計されたモデル"
},
"MiniMax-Text-01": {
"description": "MiniMax-01シリーズモデルでは、大胆な革新を行いました初めて大規模に線形注意メカニズムを実現し、従来のTransformerアーキテクチャが唯一の選択肢ではなくなりました。このモデルのパラメータ数は4560億に達し、単回のアクティベーションは459億です。モデルの総合性能は海外のトップモデルに匹敵し、世界最長の400万トークンのコンテキストを効率的に処理でき、GPT-4oの32倍、Claude-3.5-Sonnetの20倍です。"
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinkingは、アリババのTongyi Qianwenチームによってリリースされた、複雑な推論タスク向けに設計された次世代基盤モデルです。革新的なQwen3-Nextアーキテクチャに基づき、ハイブリッド注意機構Gated DeltaNetとGated Attentionと高スパース性混合エキスパートMoE構造を融合し、極限のトレーニングおよび推論効率を実現しています。総パラメータ数800億のスパースモデルとして、推論時には約30億パラメータのみを活性化し、計算コストを大幅に削減しています。32Kトークンを超える長文コンテキストタスクの処理においては、Qwen3-32Bモデルと比較してスループットが10倍以上向上しています。この「Thinking」バージョンは、数学的証明、コード合成、論理分析、計画などの高難度多段階タスクの実行に最適化されており、推論過程を構造化された「思考チェーン」形式で出力することをデフォルトとしています。性能面では、Qwen3-32B-Thinkingなどのコストの高いモデルを凌駕し、複数のベンチマークでGemini-2.5-Flash-Thinkingを上回る結果を示しています。"
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner は、アリババの通義千問チームによる Qwen3 シリーズの視覚言語モデルVLMです。高品質で詳細かつ正確な画像キャプションの生成に特化しています。300億の総パラメータを持つ混合エキスパートMoEアーキテクチャに基づき、画像内容を深く理解し、自然で流暢な文章に変換することが可能です。画像の細部把握、シーン理解、物体認識、関係推論などに優れ、精密な画像理解と記述生成が求められるアプリケーションに最適です。"
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct は、アリババの通義千問チームによる最新の Qwen3 シリーズの一つです。300億の総パラメータと30億のアクティブパラメータを持つ混合エキスパートMoEモデルで、強力な性能を維持しつつ推論コストを抑えています。高品質かつ多様なソース、多言語データでトレーニングされており、優れた汎用性を備えています。テキスト、画像、音声、動画などの全モーダル入力に対応し、クロスモーダルな理解と生成が可能です。"
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking は、Qwen3-Omni 全モーダルモデルの中核を担う「思考者Thinker」コンポーネントです。テキスト、音声、画像、動画などの多モーダル入力を処理し、複雑な思考チェーン推論を実行します。推論の中枢として、すべての入力を共通の表現空間に統一し、クロスモーダルな深い理解と高度な推論能力を実現します。混合エキスパートMoEアーキテクチャに基づき、300億の総パラメータと30億のアクティブパラメータを持ち、強力な推論能力と計算効率の最適化を両立しています。"
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct は、Qwen3-VL シリーズの大規模な命令調整モデルで、混合エキスパートMoEアーキテクチャに基づき、卓越したマルチモーダル理解と生成能力を備えています。ネイティブで 256K の文脈長をサポートし、高負荷なマルチモーダルサービスの本番環境に適しています。"
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking は、Qwen3-VL の推論強化バージョンThinkingであり、マルチモーダル推論、画像からコードへの変換、複雑な視覚理解タスクにおいて最適化されています。256K の文脈長をサポートし、より強力な連鎖的思考能力を備えています。"
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct は、アリババの通義千問チームが開発した視覚言語モデルで、複数の視覚言語ベンチマークにおいて最先端SOTAの性能を達成しています。メガピクセル級の高解像度画像入力に対応し、優れた汎用視覚理解、多言語OCR、精密な視覚的ローカライズ、視覚対話能力を備えています。Qwen3シリーズの視覚言語モデルとして、複雑な多モーダルタスクに対応し、ツール呼び出しやプロンプト継続などの高度な機能もサポートします。"
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking は、アリババの通義千問チームが開発した視覚言語モデルの中で、複雑な視覚推論タスクに特化して最適化されたバージョンです。「思考モード」を内蔵しており、質問に答える前に詳細な中間推論ステップを生成することで、マルチステップの論理、計画、複雑な推論が求められるタスクにおいて優れた性能を発揮します。メガピクセル級の高解像度画像入力に対応し、汎用視覚理解、多言語OCR、精密な視覚的ローカライズ、視覚対話能力を備え、ツール呼び出しやプロンプト継続などの機能もサポートします。"
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct は、Qwen3 シリーズの視覚言語モデルであり、Qwen3-8B-Instruct を基に開発され、大量の画像と言語データでトレーニングされています。一般的な視覚理解、視覚中心の対話、画像内の多言語テキスト認識に優れており、視覚質問応答、画像説明、多モーダル指示の実行やツール呼び出しといったシナリオに適しています。"
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instructは、高い信頼性の指示処理能力を提供し、多業界アプリケーションをサポートします。"
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR は、DeepSeek AI によって開発された視覚言語モデルで、光学文字認識OCRと「コンテキスト光学圧縮」に特化しています。本モデルは、画像から文脈情報を圧縮する限界を探求することを目的としており、文書を効率的に処理し、Markdown などの構造化テキスト形式に変換することが可能です。画像内の文字情報を正確に認識でき、文書のデジタル化、文字抽出、構造化処理などの用途に最適です。"
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1は、強化学習RL駆動の推論モデルであり、モデル内の繰り返しと可読性の問題を解決します。RLの前に、DeepSeek-R1はコールドスタートデータを導入し、推論性能をさらに最適化しました。数学、コード、推論タスクにおいてOpenAI-o1と同等のパフォーマンスを発揮し、精巧に設計されたトレーニング手法によって全体的な効果を向上させました。"
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12BはGoogleのオープンソース言語モデルであり、効率と性能の面で新たな基準を打ち立てました。"
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B はGoogleのオープンソース言語モデルであり、効率と性能の面で新たな基準を打ち立てました。"
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27Bは、Googleのオープンソース言語モデルで、効率と性能の面で新たな基準を打ち立てました。"
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct はパラメータ数8000億で、130億のパラメータを活性化するだけでより大きなモデルに匹敵し、「速考え遅考え」のハイブリッド推論をサポートします。長文理解が安定しており、BFCL-v3 と τ-Bench による検証でエージェント能力が先行しています。GQA と多量子化フォーマットを組み合わせ、高効率な推論を実現しています。"
},
"tencent/Hunyuan-MT-7B": {
"description": "混元翻訳モデルHunyuan Translation Modelは、翻訳モデル Hunyuan-MT-7B と統合モデル Hunyuan-MT-Chimera から構成されています。Hunyuan-MT-7B は、70億パラメータを持つ軽量な翻訳モデルで、ソーステキストをターゲット言語に翻訳します。本モデルは33言語および5つの中国少数民族言語間の相互翻訳をサポートしています。WMT25 国際機械翻訳コンテストでは、参加した31の言語ペアのうち30で1位を獲得し、その卓越した翻訳能力を示しました。翻訳タスクに向けて、テンセントの混元は、事前学習から教師あり微調整、翻訳強化、統合強化までの完全なトレーニングパラダイムを提案し、同規模のモデルの中で業界トップクラスの性能を実現しています。計算効率が高く、導入も容易で、さまざまな応用シーンに適しています。"
},
"text-embedding-3-large": {
"description": "最も強力なベクトル化モデル、英語および非英語のタスクに適しています"
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: Mixture-of-Experts 기반의 대규모 모델로, 효율적인 전문가 활성화 전략을 제공하여 추론 성능을 극대화합니다."
},
"MiniMax-M1": {
"description": "완전히 새로 개발된 추론 모델입니다. 세계 최고 수준: 80K 사고 체인 x 1M 입력, 해외 최상위 모델과 견줄 만한 성능을 자랑합니다."
"description": "완전히 자체 개발한 추론 모델. 세계 최고 수준: 80K 사고 체인 x 1M 입력, 해외 최상위 모델에 필적하는 성능"
},
"MiniMax-M2": {
"description": "효율적인 코딩 및 에이전트 워크플로우를 위해 설계됨"
},
"MiniMax-Text-01": {
"description": "MiniMax-01 시리즈 모델에서는 대담한 혁신을 이루었습니다: 대규모로 선형 주의 메커니즘을 처음으로 구현하였으며, 전통적인 Transformer 아키텍처가 더 이상 유일한 선택이 아닙니다. 이 모델의 파라미터 수는 4560억에 달하며, 단일 활성화는 45.9억입니다. 모델의 종합 성능은 해외 최고의 모델과 견줄 수 있으며, 전 세계에서 가장 긴 400만 토큰의 문맥을 효율적으로 처리할 수 있습니다. 이는 GPT-4o의 32배, Claude-3.5-Sonnet의 20배에 해당합니다."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking은 알리바바 통의천문 팀이 발표한 복잡한 추론 작업에 특화된 차세대 기본 모델입니다. 혁신적인 Qwen3-Next 아키텍처를 기반으로 하며, 혼합 주의 메커니즘(Gated DeltaNet 및 Gated Attention)과 고희소성 혼합 전문가(MoE) 구조를 융합하여 극대화된 학습 및 추론 효율성을 실현합니다. 총 800억 개의 파라미터를 가진 희소 모델로, 추론 시 약 30억 개의 파라미터만 활성화하여 계산 비용을 크게 줄였으며, 32K 토큰 이상의 긴 문맥 작업 처리 시 Qwen3-32B 모델보다 처리량이 10배 이상 높습니다. 이 'Thinking' 버전은 수학 증명, 코드 합성, 논리 분석 및 계획 등 고난도 다단계 작업 수행에 최적화되어 있으며, 기본적으로 구조화된 '사고 체인' 형태로 추론 과정을 출력합니다. 성능 면에서는 Qwen3-32B-Thinking 등 비용이 더 높은 모델을 능가하며, 여러 벤치마크 테스트에서 Gemini-2.5-Flash-Thinking보다 우수한 성능을 보입니다."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner는 알리바바 통의천문(Qwen) 팀의 Qwen3 시리즈에 속한 비전-언어 모델(VLM)입니다. 이 모델은 고품질, 상세하고 정확한 이미지 설명 생성을 위해 특별히 설계되었습니다. 300억 개의 총 파라미터를 가진 혼합 전문가(MoE) 아키텍처를 기반으로 하며, 이미지 내용을 깊이 있게 이해하고 이를 자연스럽고 유창한 텍스트로 변환할 수 있습니다. 이미지 세부 정보 포착, 장면 이해, 객체 인식 및 관계 추론 등에서 뛰어난 성능을 보이며, 정밀한 이미지 이해와 설명 생성이 필요한 응용 분야에 특히 적합합니다."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct는 알리바바 통의천문(Qwen) 팀의 최신 Qwen3 시리즈 중 하나입니다. 총 300억 개의 파라미터와 30억 개의 활성 파라미터를 가진 혼합 전문가(MoE) 모델로, 강력한 성능을 유지하면서도 추론 비용을 효과적으로 절감합니다. 고품질, 다출처, 다국어 데이터를 기반으로 훈련되어 강력한 범용 능력을 갖추고 있으며, 텍스트, 이미지, 오디오, 비디오 등 모든 모달 입력을 처리할 수 있어 크로스모달 콘텐츠의 이해 및 생성을 지원합니다."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking은 Qwen3-Omni 전모달 모델의 핵심 '사고자(Thinker)' 구성 요소입니다. 텍스트, 오디오, 이미지, 비디오를 포함한 다중 모달 입력을 처리하고 복잡한 사고 체인 추론을 수행하도록 설계되었습니다. 추론의 두뇌 역할을 하며, 모든 입력을 통합된 표현 공간으로 변환하여 크로스모달의 심층 이해와 복잡한 추론 능력을 실현합니다. 혼합 전문가(MoE) 아키텍처를 기반으로 하며, 300억 개의 총 파라미터와 30억 개의 활성 파라미터를 통해 강력한 추론 능력을 유지하면서도 계산 효율을 최적화합니다."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct는 Qwen3-VL 시리즈의 대형 지시 기반 미세 조정 모델로, 혼합 전문가(MoE) 아키텍처를 기반으로 뛰어난 멀티모달 이해 및 생성 능력을 갖추고 있으며, 기본적으로 256K 문맥을 지원합니다. 고동시성의 생산급 멀티모달 서비스에 적합합니다."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking은 Qwen3-VL의 추론 강화 버전(Thinking)으로, 멀티모달 추론, 이미지 기반 코드 생성 및 복잡한 시각 이해 작업에 최적화되어 있으며, 256K 문맥을 지원하고 더 강력한 연쇄적 사고 능력을 보유하고 있습니다."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct는 알리바바 통의천문(Qwen) 팀이 개발한 비전-언어 모델로, 다양한 비전-언어 벤치마크에서 최고 수준(SOTA)의 성능을 기록했습니다. 이 모델은 백만 픽셀 수준의 고해상도 이미지 입력을 지원하며, 강력한 범용 시각 이해, 다국어 OCR, 세밀한 시각적 위치 지정 및 비주얼 대화 기능을 갖추고 있습니다. Qwen3 시리즈의 비전-언어 모델로서 복잡한 멀티모달 작업을 처리할 수 있으며, 도구 호출 및 프리픽스 이어쓰기와 같은 고급 기능도 지원합니다."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking은 알리바바 통의천문(Qwen) 팀이 개발한 비전-언어 모델 중 복잡한 시각 추론 작업에 최적화된 버전입니다. 이 모델은 '사고 모드'를 내장하고 있어 질문에 답하기 전에 상세한 중간 추론 단계를 생성할 수 있으며, 다단계 논리, 계획 및 복잡한 추론이 필요한 작업에서 뛰어난 성능을 발휘합니다. 백만 픽셀 수준의 고해상도 이미지 입력을 지원하며, 강력한 범용 시각 이해, 다국어 OCR, 세밀한 시각적 위치 지정 및 비주얼 대화 기능을 갖추고 있으며, 도구 호출 및 프리픽스 이어쓰기 기능도 지원합니다."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct는 Qwen3 시리즈의 비전-언어 모델로, Qwen3-8B-Instruct를 기반으로 다량의 이미지-텍스트 데이터로 학습되었습니다. 일반적인 시각 이해, 시각 중심의 대화, 이미지 내 다국어 텍스트 인식에 능하며, 시각 질의응답, 이미지 설명, 멀티모달 명령 수행 및 도구 호출 등의 활용 시나리오에 적합합니다."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct는 높은 신뢰성을 가진 지시 처리 능력을 제공하며, 다양한 산업 응용을 지원합니다."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR은 DeepSeek AI가 개발한 비전-언어 모델로, 광학 문자 인식(OCR)과 '문맥 광학 압축'에 중점을 둡니다. 이 모델은 이미지에서 문맥 정보를 압축하는 한계를 탐구하며, 문서를 효율적으로 처리하고 이를 Markdown과 같은 구조화된 텍스트 형식으로 변환할 수 있습니다. 이미지 내 텍스트 내용을 정확하게 인식할 수 있어 문서 디지털화, 텍스트 추출 및 구조화 처리 등 다양한 응용 분야에 적합합니다."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1은 강화 학습(RL) 기반의 추론 모델로, 모델 내의 반복성과 가독성 문제를 해결합니다. RL 이전에 DeepSeek-R1은 콜드 스타트 데이터를 도입하여 추론 성능을 더욱 최적화했습니다. 수학, 코드 및 추론 작업에서 OpenAI-o1과 유사한 성능을 보이며, 정교하게 설계된 훈련 방법을 통해 전체적인 효과를 향상시켰습니다."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B는 구글의 오픈 소스 언어 모델로, 효율성과 성능 면에서 새로운 기준을 세웠습니다."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B는 구글의 오픈소스 언어 모델로, 효율성과 성능 면에서 새로운 기준을 세웠습니다."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B는 구글의 오픈 소스 언어 모델로, 효율성과 성능 면에서 새로운 기준을 세웠습니다."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct는 800억 개의 매개변수를 보유하며, 130억 개의 활성화 매개변수만으로 더 큰 모델과 견줄 수 있습니다. '빠른 사고/느린 사고' 혼합 추론을 지원하며, 긴 문서 이해가 안정적입니다. BFCL-v3와 τ-Bench 검증을 통해 에이전트 능력이 선도적임을 입증했으며, GQA와 다중 양자화 포맷을 결합해 효율적인 추론을 실현합니다."
},
"tencent/Hunyuan-MT-7B": {
"description": "혼원 번역 모델(Hunyuan Translation Model)은 Hunyuan-MT-7B 번역 모델과 Hunyuan-MT-Chimera 통합 모델로 구성되어 있습니다. Hunyuan-MT-7B는 70억 개의 파라미터를 가진 경량 번역 모델로, 원문을 목표 언어로 번역하는 데 사용됩니다. 이 모델은 33개 언어와 5개의 중국 소수민족 언어 간 상호 번역을 지원합니다. WMT25 국제 기계 번역 대회에서 31개 언어 부문 중 30개 부문에서 1위를 차지하며 뛰어난 번역 성능을 입증했습니다. 텐센트 혼원은 사전 훈련부터 감독 미세 조정, 번역 강화 및 통합 강화에 이르는 완전한 훈련 패러다임을 제시하여, 동급 모델 중 업계 최고 수준의 성능을 달성했습니다. 이 모델은 계산 효율이 높고 배포가 용이하여 다양한 응용 환경에 적합합니다."
},
"text-embedding-3-large": {
"description": "가장 강력한 벡터화 모델로, 영어 및 비영어 작업에 적합합니다."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: een grootschalig model gebaseerd op Mixture-of-Experts, biedt een efficiënte expertactivatiestrategie voor uitstekende prestaties tijdens het redeneren."
},
"MiniMax-M1": {
"description": "Een gloednieuw zelfontwikkeld redeneermodel. Wereldwijd toonaangevend: 80K denkpatronen x 1M invoer, prestaties vergelijkbaar met topmodellen uit het buitenland."
"description": "Een volledig nieuw, zelfontwikkeld redeneermodel. Wereldwijd toonaangevend: 80K denkstappen x 1M input, prestaties vergelijkbaar met topmodellen uit het buitenland."
},
"MiniMax-M2": {
"description": "Speciaal ontworpen voor efficiënte codering en agent-workflows."
},
"MiniMax-Text-01": {
"description": "In de MiniMax-01-serie modellen hebben we gedurfde innovaties doorgevoerd: voor het eerst op grote schaal een lineaire aandachtmechanisme geïmplementeerd, waardoor de traditionele Transformer-architectuur niet langer de enige keuze is. Dit model heeft een parameterhoeveelheid van maar liefst 456 miljard, met een enkele activatie van 45,9 miljard. De algehele prestaties van het model zijn vergelijkbaar met die van de beste modellen in het buitenland, terwijl het efficiënt de wereldwijd langste context van 4 miljoen tokens kan verwerken, wat 32 keer de capaciteit van GPT-4o en 20 keer die van Claude-3.5-Sonnet is."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking is een volgende generatie basis model uitgebracht door het Tongyi Qianwen-team van Alibaba, speciaal ontworpen voor complexe redeneertaken. Het is gebaseerd op de innovatieve Qwen3-Next architectuur, die een hybride aandachtmechanisme (Gated DeltaNet en Gated Attention) en een hoog-sparsity Mixture of Experts (MoE) structuur combineert, met als doel ultieme trainings- en inferentie-efficiëntie te bereiken. Als een sparsity model met in totaal 80 miljard parameters, activeert het tijdens inferentie slechts ongeveer 3 miljard parameters, wat de rekenkosten aanzienlijk verlaagt. Bij het verwerken van lange contexttaken van meer dan 32K tokens is de doorvoer meer dan 10 keer hoger dan die van het Qwen3-32B model. Deze \"Thinking\" versie is geoptimaliseerd voor het uitvoeren van wiskundige bewijzen, code synthese, logische analyse en planning, en geeft standaard de redeneerprocessen gestructureerd weer in de vorm van een \"denk-keten\". Qua prestaties overtreft het niet alleen modellen met hogere kosten zoals Qwen3-32B-Thinking, maar presteert het ook beter dan Gemini-2.5-Flash-Thinking in meerdere benchmarktests."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner is een visueel-taalkundig model (VLM) uit de Qwen3-serie van het Tongyi Qianwen-team van Alibaba. Het is speciaal ontwikkeld voor het genereren van hoogwaardige, gedetailleerde en nauwkeurige beeldbeschrijvingen. Het model is gebaseerd op een Mixture-of-Experts (MoE)-architectuur met in totaal 30 miljard parameters en is in staat om beeldinhoud diepgaand te begrijpen en om te zetten in natuurlijk vloeiende tekst. Het blinkt uit in het vastleggen van beelddetails, scènebegrip, objectherkenning en relationele redenering, en is bijzonder geschikt voor toepassingen die nauwkeurige beeldinterpretatie en beschrijvingsgeneratie vereisen."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct is een model uit de nieuwste Qwen3-serie van het Tongyi Qianwen-team van Alibaba. Het is een Mixture-of-Experts (MoE)-model met 30 miljard totale parameters en 3 miljard actieve parameters, dat krachtige prestaties levert tegen lagere inferentiekosten. Het model is getraind op hoogwaardige, meertalige en diverse gegevens en beschikt over sterke algemene capaciteiten. Het ondersteunt volledige multimodale inputverwerking, waaronder tekst, beeld, audio en video, en kan multimodale inhoud begrijpen en genereren."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking is het centrale 'denkende' (Thinker) onderdeel van het volledig multimodale Qwen3-Omni-model. Het is speciaal ontworpen voor het verwerken van multimodale input, waaronder tekst, audio, beeld en video, en voert complexe redeneerstappen uit. Als het brein achter de redenering brengt dit model alle input samen in een gemeenschappelijke representatieruimte, wat diepgaand begrip en complexe multimodale redenering mogelijk maakt. Het model is gebaseerd op een Mixture-of-Experts (MoE)-architectuur met 30 miljard totale parameters en 3 miljard actieve parameters, en optimaliseert rekenefficiëntie zonder in te boeten op redeneervermogen."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct is een grootschalig instructie-afgesteld model uit de Qwen3-VL-serie. Het is gebaseerd op een Mixture of Experts (MoE)-architectuur en beschikt over uitstekende multimodale begrip- en generatiecapaciteiten. Het ondersteunt van nature een context van 256K tokens en is geschikt voor productieklare multimodale diensten met hoge gelijktijdigheid."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking is de redeneringsgerichte versie (Thinking) van Qwen3-VL. Het is geoptimaliseerd voor multimodale redenering, beeld-naar-code taken en complexe visuele interpretatie. Het ondersteunt 256K context en beschikt over geavanceerde ketenredeneringsvaardigheden."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct is een visueel-taalkundig model ontwikkeld door het Tongyi Qianwen-team van Alibaba, dat toonaangevende SOTA-prestaties behaalt op meerdere benchmarks voor visuele taalverwerking. Het model ondersteunt invoer van hoge resolutie tot op megapixelniveau en beschikt over krachtige algemene visuele interpretatie, meertalige OCR, fijnmazige visuele lokalisatie en visuele dialoogmogelijkheden. Als onderdeel van de Qwen3-serie is het in staat om complexe multimodale taken uit te voeren en ondersteunt het geavanceerde functies zoals toolaanroepen en prefix-aanvulling."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking is een geoptimaliseerde versie van het visueel-taalkundige model van het Tongyi Qianwen-team van Alibaba, speciaal ontworpen voor complexe visuele redeneertaken. Het model bevat een 'denkmodus' waarmee het gedetailleerde tussenstappen van redenering kan genereren voordat het een antwoord geeft. Dit versterkt de prestaties aanzienlijk bij taken die meerdere logische stappen, planning en complexe redenering vereisen. Het ondersteunt invoer van hoge resolutie tot op megapixelniveau en beschikt over krachtige algemene visuele interpretatie, meertalige OCR, fijnmazige visuele lokalisatie en visuele dialoogmogelijkheden, evenals functies zoals toolaanroepen en prefix-aanvulling."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct is een visueel-taalkundig model uit de Qwen3-serie, ontwikkeld op basis van Qwen3-8B-Instruct en getraind op grote hoeveelheden beeld- en tekstdata. Het is bedreven in algemene visuele interpretatie, visueel-centrische dialogen en meertalige tekstherkenning in afbeeldingen. Het is geschikt voor toepassingen zoals visuele vraag-en-antwoord, beeldbeschrijving, multimodale instructievolging en toolaansturing."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct biedt betrouwbare instructieverwerkingscapaciteiten en ondersteunt toepassingen in verschillende sectoren."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR is een visueel-taalkundig model ontwikkeld door DeepSeek AI, gericht op optische tekenherkenning (OCR) en 'contextuele optische compressie'. Het model is ontworpen om de grenzen te verkennen van contextuele informatiecompressie uit beelden en kan efficiënt documenten verwerken en omzetten in gestructureerde tekstformaten zoals Markdown. Het herkent nauwkeurig tekstinhoud in afbeeldingen en is bijzonder geschikt voor toepassingen zoals documentdigitalisering, teksterkenning en gestructureerde verwerking."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 is een op versterkend leren (RL) aangedreven inferentiemodel dat de problemen van herhaling en leesbaarheid in het model oplost. Voor RL introduceerde DeepSeek-R1 koude startdata om de inferentieprestaties verder te optimaliseren. Het presteert vergelijkbaar met OpenAI-o1 in wiskunde, code en inferentietaken, en verbetert de algehele effectiviteit door zorgvuldig ontworpen trainingsmethoden."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B is een open-source taalmodel van Google dat nieuwe standaarden zet op het gebied van efficiëntie en prestaties."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B is een open source taalmodel van Google dat nieuwe standaarden zet op het gebied van efficiëntie en prestaties."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B is een open-source taalmodel van Google dat nieuwe normen heeft gesteld op het gebied van efficiëntie en prestaties."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct heeft 80 miljard parameters, waarbij het activeren van 13 miljard parameters al vergelijkbare prestaties levert als grotere modellen. Het ondersteunt een hybride redeneermethode van 'snelle denkwijze/langzame denkwijze'; stabiele lange tekstbegrip; geverifieerd door BFCL-v3 en τ-Bench, met leidende agentcapaciteiten; gecombineerd met GQA en meerdere kwantisatieformaten voor efficiënte inferentie."
},
"tencent/Hunyuan-MT-7B": {
"description": "Het Hunyuan-vertalingsmodel bestaat uit het vertaalmodel Hunyuan-MT-7B en het geïntegreerde model Hunyuan-MT-Chimera. Hunyuan-MT-7B is een lichtgewicht vertaalmodel met 7 miljard parameters, ontworpen om bronteksten naar doeltalen te vertalen. Het ondersteunt vertaling tussen 33 talen en 5 Chinese minderheidstalen. In de internationale WMT25-machinevertalingswedstrijd behaalde Hunyuan-MT-7B 30 eerste plaatsen in 31 deelnemende taalcategorieën, wat zijn uitstekende vertaalcapaciteiten aantoont. Voor vertaalscenarios heeft Tencent Hunyuan een volledig trainingsparadigma ontwikkeld, van pretraining tot gesuperviseerd fine-tunen, gevolgd door vertaalversterking en geïntegreerde optimalisatie, waarmee het model toonaangevende prestaties levert binnen zijn schaal. Het model is efficiënt in gebruik, eenvoudig te implementeren en geschikt voor diverse toepassingen."
},
"text-embedding-3-large": {
"description": "Het krachtigste vectorisatie model, geschikt voor Engelse en niet-Engelse taken."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: duży model oparty na architekturze Mixture-of-Experts, oferujący efektywną strategię aktywacji ekspertów dla doskonałej wydajności podczas wnioskowania."
},
"MiniMax-M1": {
"description": "Nowy, samodzielnie opracowany model inferencyjny. Globalny lider: 80K łańcuchów myślowych x 1M wejść, efektywność porównywalna z najlepszymi modelami zagranicznymi."
"description": "Nowy, samodzielnie opracowany model wnioskowania. Światowy lider: 80K łańcuchów myślowych x 1M danych wejściowych, osiągi porównywalne z czołowymi modelami zagranicznymi."
},
"MiniMax-M2": {
"description": "Stworzony z myślą o wydajnym kodowaniu i przepływach pracy opartych na agentach."
},
"MiniMax-Text-01": {
"description": "W serii modeli MiniMax-01 wprowadziliśmy odważne innowacje: po raz pierwszy na dużą skalę zrealizowano mechanizm liniowej uwagi, tradycyjna architektura Transformera nie jest już jedynym wyborem. Liczba parametrów tego modelu wynosi aż 456 miliardów, z aktywacją wynoszącą 45,9 miliarda. Ogólna wydajność modelu dorównuje najlepszym modelom zagranicznym, jednocześnie efektywnie przetwarzając kontekst o długości do 4 milionów tokenów, co stanowi 32 razy więcej niż GPT-4o i 20 razy więcej niż Claude-3.5-Sonnet."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking to kolejna generacja modelu bazowego wydanego przez zespół Tongyi Qianwen z Alibaba, specjalnie zaprojektowana do złożonych zadań wnioskowania. Opiera się na innowacyjnej architekturze Qwen3-Next, która łączy hybrydowy mechanizm uwagi (Gated DeltaNet i Gated Attention) oraz wysoko rzadką strukturę ekspertów mieszanych (MoE), dążąc do maksymalnej efektywności treningu i inferencji. Jako model rzadki z 80 miliardami parametrów, podczas inferencji aktywuje jedynie około 3 miliardów parametrów, co znacznie obniża koszty obliczeniowe. Przy zadaniach z bardzo długim kontekstem przekraczającym 32 tysiące tokenów, przepustowość jest ponad 10 razy wyższa niż w modelu Qwen3-32B. Wersja „Thinking” jest zoptymalizowana do wykonywania złożonych, wieloetapowych zadań takich jak dowody matematyczne, synteza kodu, analiza logiczna i planowanie, domyślnie generując proces wnioskowania w ustrukturyzowanej formie łańcucha myślenia. Pod względem wydajności przewyższa modele o wyższych kosztach, takie jak Qwen3-32B-Thinking, a także w wielu benchmarkach jest lepszy od Gemini-2.5-Flash-Thinking."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner to model językowo-wizualny (VLM) z serii Qwen3 opracowanej przez zespół Tongyi Qianwen z Alibaba. Został zaprojektowany do generowania wysokiej jakości, szczegółowych i precyzyjnych opisów obrazów. Model oparty jest na architekturze mieszanych ekspertów (MoE) z 30 miliardami parametrów, co pozwala mu na głębokie zrozumienie zawartości obrazu i przekształcanie jej w naturalny, płynny opis tekstowy. Wyróżnia się w takich zadaniach jak uchwycenie detali, rozumienie scen, rozpoznawanie obiektów i wnioskowanie relacji, co czyni go idealnym do zastosowań wymagających precyzyjnego rozumienia i opisu obrazów."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct to jeden z najnowszych modeli z serii Qwen3 opracowanej przez zespół Tongyi Qianwen z Alibaba. Jest to model mieszanych ekspertów (MoE) z 30 miliardami parametrów całkowitych i 3 miliardami aktywnych parametrów, który łączy wysoką wydajność z efektywnością obliczeniową. Trening oparty na danych wysokiej jakości, pochodzących z wielu źródeł i w wielu językach, zapewnia mu silne zdolności ogólne. Obsługuje wejścia w pełnym zakresie modalności tekst, obraz, dźwięk i wideo umożliwiając zrozumienie i generowanie treści między modalnościami."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking to kluczowy komponent „myślący” (Thinker) w pełnomodalnym modelu Qwen3-Omni. Odpowiada za przetwarzanie danych wejściowych w różnych modalnościach tekst, dźwięk, obraz i wideo oraz wykonywanie złożonych wnioskowań łańcuchowych. Jako „mózg” procesu wnioskowania, model ten ujednolica wszystkie dane wejściowe w jednej przestrzeni reprezentacji, umożliwiając głębokie zrozumienie i złożone wnioskowanie między modalnościami. Bazuje na architekturze mieszanych ekspertów (MoE) z 30 miliardami parametrów całkowitych i 3 miliardami aktywnych, zapewniając wysoką wydajność przy zoptymalizowanej efektywności obliczeniowej."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct to duży model z serii Qwen3-VL dostrojony do wykonywania poleceń, oparty na architekturze mieszanych ekspertów (MoE). Wyróżnia się doskonałymi zdolnościami rozumienia i generowania treści multimodalnych, natywnie obsługuje kontekst o długości 256K i nadaje się do produkcyjnych usług multimodalnych o wysokiej równoległości."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking to rozszerzona wersja modelu Qwen3-VL skoncentrowana na wnioskowaniu (Thinking), zoptymalizowana pod kątem zadań takich jak multimodalne wnioskowanie, konwersja obrazu na kod oraz złożone rozumienie wizualne. Obsługuje kontekst 256K i oferuje zaawansowane możliwości rozumowania łańcuchowego."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct to model językowo-wizualny opracowany przez zespół Tongyi Qianwen z Alibaba, który osiągnął wiodące wyniki SOTA w wielu testach porównawczych. Obsługuje obrazy o wysokiej rozdzielczości na poziomie milionów pikseli i oferuje zaawansowane możliwości ogólnego rozumienia wizualnego, wielojęzycznego OCR, precyzyjnej lokalizacji wizualnej oraz dialogu wizualnego. Jako część serii Qwen3, model ten radzi sobie z wymagającymi zadaniami multimodalnymi i obsługuje zaawansowane funkcje, takie jak wywoływanie narzędzi i kontynuacja prefiksów."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking to specjalnie zoptymalizowana wersja modelu językowo-wizualnego opracowanego przez zespół Tongyi Qianwen z Alibaba, przeznaczona do złożonych zadań wnioskowania wizualnego. Model ten posiada wbudowany „tryb myślenia”, który umożliwia generowanie szczegółowych, pośrednich kroków wnioskowania przed udzieleniem odpowiedzi, znacznie poprawiając jego skuteczność w zadaniach wymagających wieloetapowej logiki, planowania i złożonego rozumowania. Obsługuje obrazy o wysokiej rozdzielczości na poziomie milionów pikseli, oferuje zaawansowane możliwości rozumienia wizualnego, wielojęzycznego OCR, precyzyjnej lokalizacji wizualnej i dialogu wizualnego, a także wspiera wywoływanie narzędzi i kontynuację prefiksów."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct to model językowo-wizualny z serii Qwen3, opracowany na bazie Qwen3-8B-Instruct i wytrenowany na dużej ilości danych tekstowo-obrazowych. Wyróżnia się w ogólnym rozumieniu wizualnym, dialogach skoncentrowanych na obrazie oraz rozpoznawaniu tekstu w wielu językach w obrazach. Nadaje się do zastosowań takich jak pytania i odpowiedzi wizualne, opisy obrazów, podążanie za multimodalnymi instrukcjami oraz wywoływanie narzędzi."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct oferuje wysoką niezawodność w przetwarzaniu poleceń, wspierając różne branże."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR to model językowo-wizualny opracowany przez DeepSeek AI, skoncentrowany na optycznym rozpoznawaniu znaków (OCR) i „kontekstowej kompresji optycznej”. Model ten bada granice kompresji informacji kontekstowej z obrazów, umożliwiając efektywne przetwarzanie dokumentów i konwersję ich do ustrukturyzowanych formatów tekstowych, takich jak Markdown. Potrafi precyzyjnie rozpoznawać tekst w obrazach, co czyni go idealnym do cyfryzacji dokumentów, ekstrakcji tekstu i przetwarzania strukturalnego."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 to model wnioskowania napędzany uczeniem przez wzmacnianie (RL), który rozwiązuje problemy z powtarzalnością i czytelnością modelu. Przed RL, DeepSeek-R1 wprowadził dane z zimnego startu, co dodatkowo zoptymalizowało wydajność wnioskowania. W zadaniach matematycznych, kodowania i wnioskowania osiąga wyniki porównywalne z OpenAI-o1, a dzięki starannie zaprojektowanym metodom treningowym poprawia ogólne efekty."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B to otwarty model językowy Google, ustanawiający nowe standardy w zakresie efektywności i wydajności."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B to otwarty model językowy Google, ustanawiający nowe standardy w zakresie efektywności i wydajności."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B to otwarty model językowy stworzony przez Google, który ustanowił nowe standardy w zakresie wydajności i efektywności."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct ma 80 miliardów parametrów, a aktywacja 13 miliardów parametrów pozwala mu konkurować z większymi modelami. Wspiera hybrydowe wnioskowanie „szybkiego myślenia/powolnego myślenia”; stabilne rozumienie długich tekstów; potwierdzona przewaga zdolności agenta w testach BFCL-v3 i τ-Bench; dzięki połączeniu GQA i wielu formatów kwantyzacji zapewnia efektywne wnioskowanie."
},
"tencent/Hunyuan-MT-7B": {
"description": "Model tłumaczeniowy Hunyuan (Hunyuan Translation Model) składa się z modelu Hunyuan-MT-7B oraz modelu zintegrowanego Hunyuan-MT-Chimera. Hunyuan-MT-7B to lekki model tłumaczeniowy z 7 miliardami parametrów, przeznaczony do tłumaczenia tekstu źródłowego na język docelowy. Obsługuje tłumaczenia między 33 językami oraz 5 językami mniejszości narodowych w Chinach. W międzynarodowym konkursie tłumaczenia maszynowego WMT25 model ten zdobył pierwsze miejsce w 30 z 31 kategorii językowych, w których brał udział, co świadczy o jego wyjątkowej skuteczności. Tencent Hunyuan opracował kompleksowy paradygmat treningowy obejmujący pretrening, nadzorowane dostrajanie, wzmocnienie tłumaczenia i integrację, co pozwoliło osiągnąć wiodącą wydajność wśród modeli o podobnej skali. Model cechuje się wysoką efektywnością obliczeniową i łatwością wdrożenia, co czyni go odpowiednim do wielu zastosowań."
},
"text-embedding-3-large": {
"description": "Najpotężniejszy model wektoryzacji, odpowiedni do zadań w języku angielskim i innych językach."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: modelo de grande escala baseado em Mixture-of-Experts, oferecendo uma estratégia eficiente de ativação de especialistas para desempenho superior em inferência."
},
"MiniMax-M1": {
"description": "Modelo de inferência totalmente desenvolvido internamente. Líder mundial: 80K cadeias de pensamento x 1M de entradas, desempenho comparável aos melhores modelos internacionais."
"description": "Novo modelo de inferência desenvolvido internamente. Líder global: 80 mil cadeias de raciocínio x 1 milhão de entradas, com desempenho comparável aos melhores modelos internacionais."
},
"MiniMax-M2": {
"description": "Projetado especialmente para codificação eficiente e fluxos de trabalho com agentes."
},
"MiniMax-Text-01": {
"description": "Na série de modelos MiniMax-01, fizemos inovações ousadas: pela primeira vez, implementamos em larga escala um mecanismo de atenção linear, tornando a arquitetura Transformer tradicional não mais a única opção. Este modelo possui um total de 456 bilhões de parâmetros, com 45,9 bilhões ativados em uma única vez. O desempenho geral do modelo é comparável aos melhores modelos internacionais, enquanto lida eficientemente com contextos de até 4 milhões de tokens, 32 vezes mais que o GPT-4o e 20 vezes mais que o Claude-3.5-Sonnet."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking é o modelo base de próxima geração lançado pela equipe Tongyi Qianwen da Alibaba, projetado para tarefas complexas de raciocínio. Baseado na inovadora arquitetura Qwen3-Next, que integra mecanismos híbridos de atenção (Gated DeltaNet e Gated Attention) e uma estrutura de especialistas mistos altamente esparsos (MoE), busca máxima eficiência em treinamento e inferência. Como um modelo esparso com 80 bilhões de parâmetros totais, ativa apenas cerca de 3 bilhões durante a inferência, reduzindo significativamente o custo computacional. Em tarefas de contexto longo com mais de 32 mil tokens, sua taxa de inferência é mais de 10 vezes superior ao modelo Qwen3-32B. Esta versão “Thinking” é otimizada para executar tarefas complexas de múltiplas etapas, como provas matemáticas, síntese de código, análise lógica e planejamento, e por padrão produz o processo de raciocínio em forma estruturada de “cadeia de pensamento”. Em desempenho, supera modelos mais custosos como o Qwen3-32B-Thinking e também apresenta melhor desempenho que o Gemini-2.5-Flash-Thinking em vários benchmarks."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "O Qwen3-Omni-30B-A3B-Captioner é um modelo de linguagem visual (VLM) da série Qwen3, desenvolvido pela equipe Tongyi Qianwen da Alibaba. Ele é especializado na geração de descrições de imagens de alta qualidade, detalhadas e precisas. Baseado em uma arquitetura de especialistas mistos (MoE) com 30 bilhões de parâmetros totais, o modelo é capaz de compreender profundamente o conteúdo visual e transformá-lo em descrições textuais naturais e fluentes. Apresenta desempenho excepcional em captura de detalhes, compreensão de cenários, reconhecimento de objetos e raciocínio relacional, sendo ideal para aplicações que exigem entendimento visual preciso e geração de descrições."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "O Qwen3-Omni-30B-A3B-Instruct é um modelo da nova série Qwen3 da equipe Tongyi Qianwen da Alibaba. Com 30 bilhões de parâmetros totais e 3 bilhões de parâmetros ativos, este modelo de especialistas mistos (MoE) oferece alto desempenho com menor custo de inferência. Treinado com dados de alta qualidade, multiorigem e multilíngues, possui forte capacidade geral e suporta entrada multimodal, incluindo texto, imagem, áudio e vídeo, sendo capaz de compreender e gerar conteúdo entre diferentes modalidades."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "O Qwen3-Omni-30B-A3B-Thinking é o componente central \"pensador\" (Thinker) do modelo multimodal Qwen3-Omni. Ele é responsável por processar entradas multimodais, como texto, áudio, imagem e vídeo, realizando raciocínios complexos em cadeia. Atuando como o cérebro da inferência, o modelo unifica todas as entradas em um espaço de representação comum, permitindo compreensão profunda e raciocínio complexo entre modalidades. Baseado em uma arquitetura de especialistas mistos (MoE), possui 30 bilhões de parâmetros totais e 3 bilhões de parâmetros ativos, otimizando a eficiência computacional sem comprometer a capacidade de raciocínio."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct é um modelo de ajuste fino baseado em instruções da série Qwen3-VL, com arquitetura de especialistas mistos (MoE), oferecendo capacidades excepcionais de compreensão e geração multimodal. Suporta nativamente contexto de até 256K tokens, sendo adequado para serviços multimodais de produção com alta concorrência."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking é a versão aprimorada para raciocínio da série Qwen3-VL, otimizada para tarefas de inferência multimodal, conversão de imagem para código e compreensão visual complexa. Suporta contexto de até 256K tokens e possui capacidades avançadas de raciocínio encadeado."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "O Qwen3-VL-32B-Instruct é um modelo de linguagem visual desenvolvido pela equipe Tongyi Qianwen da Alibaba, que alcançou desempenho SOTA em diversos benchmarks de linguagem visual. Suporta entrada de imagens em alta resolução com milhões de pixels e possui capacidades robustas de compreensão visual geral, OCR multilíngue, localização visual de alta precisão e diálogo visual. Como parte da série Qwen3, este modelo é capaz de lidar com tarefas multimodais complexas e oferece funcionalidades avançadas como chamada de ferramentas e continuação de prefixos."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "O Qwen3-VL-32B-Thinking é uma versão otimizada do modelo de linguagem visual da equipe Tongyi Qianwen da Alibaba, voltada para tarefas complexas de raciocínio visual. Com um modo de \"pensamento\" embutido, o modelo é capaz de gerar etapas intermediárias de raciocínio antes de responder, melhorando significativamente seu desempenho em tarefas que exigem lógica em múltiplas etapas, planejamento e raciocínio complexo. Suporta imagens em alta resolução com milhões de pixels, possui forte compreensão visual geral, OCR multilíngue, localização visual precisa e diálogo visual, além de funcionalidades como chamada de ferramentas e continuação de prefixos."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct é um modelo de linguagem visual da série Qwen3, desenvolvido com base no Qwen3-8B-Instruct e treinado com grandes volumes de dados multimodais. Ele é especializado em compreensão visual geral, diálogos centrados em imagens e reconhecimento multilíngue de texto em imagens. É ideal para tarefas como perguntas e respostas visuais, descrição de imagens, seguimento de instruções multimodais e chamadas de ferramentas."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct oferece capacidade de processamento de instruções altamente confiável, suportando aplicações em diversos setores."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "O DeepSeek-OCR é um modelo de linguagem visual desenvolvido pela DeepSeek AI, com foco em reconhecimento óptico de caracteres (OCR) e \"compressão óptica contextual\". O modelo explora os limites da compressão de informações contextuais a partir de imagens, sendo capaz de processar documentos de forma eficiente e convertê-los em formatos estruturados como Markdown. Ele reconhece com precisão o conteúdo textual em imagens, sendo especialmente adequado para digitalização de documentos, extração de texto e processamento estruturado."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 é um modelo de inferência impulsionado por aprendizado por reforço (RL), que resolve problemas de repetitividade e legibilidade no modelo. Antes do RL, o DeepSeek-R1 introduziu dados de inicialização a frio, otimizando ainda mais o desempenho da inferência. Ele apresenta desempenho comparável ao OpenAI-o1 em tarefas matemáticas, de código e de inferência, e melhora o resultado geral por meio de métodos de treinamento cuidadosamente projetados."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B é um modelo de linguagem open source do Google que estabelece novos padrões em eficiência e desempenho."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B é um modelo de linguagem de código aberto do Google que estabelece novos padrões em eficiência e desempenho."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B é um modelo de linguagem de código aberto do Google, que estabelece novos padrões em eficiência e desempenho."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct possui 80 bilhões de parâmetros, ativando 13 bilhões para competir com modelos maiores, suportando raciocínio híbrido de “pensamento rápido/pensamento lento”; compreensão estável de textos longos; validado pelo BFCL-v3 e τ-Bench, com capacidades de agente líderes; combinando GQA e múltiplos formatos de quantização para inferência eficiente."
},
"tencent/Hunyuan-MT-7B": {
"description": "O modelo de tradução Hunyuan (Hunyuan Translation Model) é composto pelo modelo de tradução Hunyuan-MT-7B e pelo modelo integrado Hunyuan-MT-Chimera. O Hunyuan-MT-7B é um modelo leve com 7 bilhões de parâmetros, projetado para traduzir textos da língua de origem para a língua de destino. Suporta tradução entre 33 idiomas e 5 línguas de minorias étnicas chinesas. No concurso internacional de tradução automática WMT25, o Hunyuan-MT-7B conquistou o primeiro lugar em 30 das 31 categorias linguísticas em que participou, demonstrando sua excelência em tradução. A Tencent propôs um paradigma completo de treinamento para cenários de tradução, que vai do pré-treinamento ao ajuste supervisionado, seguido por reforço de tradução e reforço integrado, alcançando desempenho líder na indústria entre modelos de mesma escala. O modelo é eficiente em termos computacionais, fácil de implantar e adequado para diversos cenários de aplicação."
},
"text-embedding-3-large": {
"description": "O modelo de vetorização mais poderoso, adequado para tarefas em inglês e não inglês."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: крупномасштабная модель на основе Mixture-of-Experts, обеспечивающая эффективную стратегию активации экспертов для превосходной производительности при выводе."
},
"MiniMax-M1": {
"description": "Совершенно новая собственная модель вывода. Мировой лидер: 80K цепочек мышления x 1M входов, эффективность сопоставима с ведущими зарубежными моделями."
"description": "Новая собственная модель вывода. Мировой лидер: 80K цепочек рассуждений x 1M входов, по эффективности сопоставима с ведущими зарубежными моделями"
},
"MiniMax-M2": {
"description": "Создана специально для эффективного кодирования и рабочих процессов агентов"
},
"MiniMax-Text-01": {
"description": "В серии моделей MiniMax-01 мы сделали смелые инновации: впервые в крупномасштабном масштабе реализован линейный механизм внимания, традиционная архитектура Transformer больше не является единственным выбором. Объем параметров этой модели достигает 456 миллиардов, из которых 45,9 миллиарда активируются за один раз. Комплексная производительность модели сопоставима с ведущими зарубежными моделями, при этом она может эффективно обрабатывать контекст длиной до 4 миллионов токенов, что в 32 раза больше, чем у GPT-4o, и в 20 раз больше, чем у Claude-3.5-Sonnet."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking — это следующего поколения базовая модель, выпущенная командой Alibaba Tongyi Qianwen, специально разработанная для сложных задач рассуждения. Она основана на инновационной архитектуре Qwen3-Next, которая объединяет гибридный механизм внимания (Gated DeltaNet и Gated Attention) и высокоразреженную структуру смешанных экспертов (MoE), направленную на максимальную эффективность обучения и вывода. Как разреженная модель с общим числом параметров 80 миллиардов, при выводе активируется около 3 миллиардов параметров, что значительно снижает вычислительные затраты. При обработке задач с длинным контекстом более 32K токенов пропускная способность вывода превышает модель Qwen3-32B более чем в 10 раз. Эта версия «Thinking» оптимизирована для выполнения сложных многошаговых задач, таких как математические доказательства, синтез кода, логический анализ и планирование, и по умолчанию выводит процесс рассуждения в структурированной форме «цепочки мышления». По производительности она не только превосходит более дорогие модели, такие как Qwen3-32B-Thinking, но и опережает Gemini-2.5-Flash-Thinking в нескольких бенчмарках."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner — это модель визуально-языкового интеллекта (VLM) из серии Qwen3, разработанная командой Tongyi Qianwen компании Alibaba. Она специально предназначена для генерации высококачественных, детализированных и точных описаний изображений. Модель построена на архитектуре смешанных экспертов (MoE) с общим числом параметров 30 миллиардов, что позволяет ей глубоко понимать содержание изображений и преобразовывать его в естественные и плавные текстовые описания. Она демонстрирует выдающиеся результаты в распознавании деталей, понимании сцен, идентификации объектов и логических связей, особенно подходит для приложений, требующих точного понимания изображений и генерации описаний."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct — одна из новейших моделей серии Qwen3 от команды Tongyi Qianwen компании Alibaba. Это модель со смешанными экспертами (MoE), имеющая 30 миллиардов общих параметров и 3 миллиарда активных параметров, что позволяет сохранять высокую производительность при снижении затрат на вывод. Обученная на высококачественных, многоязычных и разнородных данных, модель обладает мощными универсальными возможностями и поддерживает обработку входных данных всех типов: текст, изображение, аудио и видео, обеспечивая понимание и генерацию мультимодального контента."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking — это ключевой компонент \"мыслителя\" (Thinker) в мультимодальной модели Qwen3-Omni. Он специально разработан для обработки мультимодальных входных данных, включая текст, аудио, изображения и видео, и выполнения сложных цепочек рассуждений. Как \"мозг\" вывода, эта модель объединяет все входные данные в общее представление, обеспечивая глубокое межмодальное понимание и сложные логические выводы. Построенная на архитектуре смешанных экспертов (MoE), модель имеет 30 миллиардов общих параметров и 3 миллиарда активных параметров, что позволяет сохранять высокую вычислительную эффективность при мощных возможностях рассуждения."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct — это крупномасштабная модель с дообучением на инструкциях из серии Qwen3-VL, основанная на архитектуре смешанных экспертов (MoE). Обладает выдающимися возможностями в области мультимодального понимания и генерации, нативно поддерживает контекст длиной до 256K токенов и подходит для высоконагруженных производственных мультимодальных сервисов."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking — улучшенная версия Thinking из серии Qwen3-VL, оптимизированная для мультимодального рассуждения, преобразования изображений в код и сложных задач визуального понимания. Поддерживает контекст до 256K токенов и обладает усиленными возможностями цепного мышления."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct — визуально-языковая модель от команды Tongyi Qianwen компании Alibaba, достигшая передовых результатов (SOTA) в ряде визуально-языковых бенчмарков. Модель поддерживает вход изображений с высоким разрешением на уровне мегапикселей и обладает мощными возможностями общего визуального понимания, многоязычного OCR, точного визуального позиционирования и визуального диалога. Как часть серии Qwen3, она способна решать сложные мультимодальные задачи и поддерживает такие расширенные функции, как вызов инструментов и продолжение по префиксу."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking — это специализированная версия визуально-языковой модели от команды Tongyi Qianwen компании Alibaba, оптимизированная для сложных задач визуального рассуждения. Модель оснащена \"режимом мышления\", который позволяет ей генерировать подробные промежуточные шаги рассуждений перед ответом на вопрос, значительно улучшая её производительность в задачах, требующих многошаговой логики, планирования и сложных выводов. Она поддерживает изображения с высоким разрешением на уровне мегапикселей, обладает мощными возможностями визуального понимания, многоязычного OCR, точного позиционирования и визуального диалога, а также поддерживает вызов инструментов и продолжение по префиксу."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct — это модель визуально-языкового понимания из серии Qwen3, разработанная на основе Qwen3-8B-Instruct и обученная на большом объёме данных, содержащих изображения и тексты. Она хорошо справляется с задачами общего визуального понимания, визуально-ориентированного диалога и распознавания многоязычного текста на изображениях. Подходит для сценариев визуального вопросно-ответного взаимодействия, описания изображений, следования мультимодальным инструкциям и вызова инструментов."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct предлагает высокую надежность в обработке команд, поддерживая приложения в различных отраслях."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR — визуально-языковая модель, разработанная DeepSeek AI, ориентированная на оптическое распознавание символов (OCR) и \"контекстное оптическое сжатие\". Модель исследует границы сжатия контекстной информации из изображений, эффективно обрабатывая документы и преобразуя их в структурированные форматы, такие как Markdown. Она точно распознаёт текстовое содержимое изображений, особенно подходит для задач цифровизации документов, извлечения текста и структурированной обработки."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 — это модель вывода, управляемая методом обучения с подкреплением (RL), которая решает проблемы повторяемости и читаемости модели. Перед применением RL DeepSeek-R1 вводит данные холодного старта, что дополнительно оптимизирует производительность вывода. Она показывает сопоставимые результаты с OpenAI-o1 в математических, кодовых и задачах вывода, а также улучшает общую эффективность благодаря тщательно разработанным методам обучения."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B — открытая языковая модель от Google, установившая новые стандарты эффективности и производительности."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B — это открытая языковая модель от Google, установившая новые стандарты в эффективности и производительности."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B — это открытая языковая модель от Google, которая установила новые стандарты в области эффективности и производительности."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct имеет 80 миллиардов параметров, при активации 13 миллиардов параметров может конкурировать с более крупными моделями, поддерживает гибридное рассуждение «быстрое мышление/медленное мышление»; стабильное понимание длинных текстов; проверено BFCL-v3 и τ-Bench, способности агента на передовом уровне; сочетает GQA и множество форматов квантизации для эффективного вывода."
},
"tencent/Hunyuan-MT-7B": {
"description": "Модель перевода Hunyuan (Hunyuan Translation Model) состоит из модели перевода Hunyuan-MT-7B и интегрированной модели Hunyuan-MT-Chimera. Hunyuan-MT-7B — это лёгкая модель перевода с 7 миллиардами параметров, предназначенная для перевода исходного текста на целевой язык. Она поддерживает перевод между 33 языками и 5 языками китайских национальных меньшинств. На международном конкурсе машинного перевода WMT25 модель заняла первое место в 30 из 31 языковых категорий, в которых участвовала, продемонстрировав выдающиеся способности. Tencent Hunyuan предложила полную парадигму обучения для задач перевода — от предварительного обучения до контролируемой донастройки, усиленного перевода и интеграционного обучения, что позволило достичь лидирующей производительности среди моделей аналогичного масштаба. Модель отличается высокой вычислительной эффективностью и простотой развертывания, подходит для различных сценариев применения."
},
"text-embedding-3-large": {
"description": "Самая мощная модель векторизации, подходящая для английских и неанглийских задач."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: Mixture-of-Experts tabanlı büyük ölçekli model, çıkarımda üstün performans için verimli uzman aktivasyon stratejisi sunar."
},
"MiniMax-M1": {
"description": "Tamamen kendi geliştirdiğimiz yeni çıkarım modeli. Küresel lider: 80K düşünce zinciri x 1M giriş, performansı uluslararası üst düzey modellerle eşdeğer."
"description": "Tamamen yeni, kendi geliştirdiğimiz çıkarım modeli. Dünya lideri: 80K düşünce zinciri x 1M girdi, performansı yurtdışındaki en iyi modellerle kıyaslanabilir düzeyde."
},
"MiniMax-M2": {
"description": "Verimli kodlama ve Agent iş akışları için özel olarak tasarlandı."
},
"MiniMax-Text-01": {
"description": "MiniMax-01 serisi modellerinde cesur yenilikler yaptık: ilk kez büyük ölçekli lineer dikkat mekanizmasını gerçekleştirdik, geleneksel Transformer mimarisi artık tek seçenek değil. Bu modelin parametre sayısı 456 milyara kadar çıkmakta, tek bir aktivasyonda 45.9 milyar. Modelin genel performansı, yurtdışındaki en iyi modellerle karşılaştırılabilirken, dünya genelinde 4 milyon token uzunluğundaki bağlamı verimli bir şekilde işleyebilir, bu da GPT-4o'nun 32 katı, Claude-3.5-Sonnet'in 20 katıdır."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking, Alibaba Tongyi Qianwen ekibi tarafından karmaşık çıkarım görevleri için tasarlanmış yeni nesil temel modeldir. Yenilikçi Qwen3-Next mimarisi üzerine kurulmuş olup, hibrit dikkat mekanizması (Gated DeltaNet ve Gated Attention) ve yüksek seyrekli hibrit uzman (MoE) yapısını birleştirerek en üst düzey eğitim ve çıkarım verimliliğini hedefler. 80 milyar toplam parametreye sahip seyrek bir model olarak, çıkarım sırasında yalnızca yaklaşık 3 milyar parametreyi aktive ederek hesaplama maliyetlerini önemli ölçüde düşürür ve 32K tokendan uzun bağlam görevlerinde çıkarım verimliliği Qwen3-32B modeline kıyasla 10 kat daha fazladır. Bu “Thinking” versiyonu, matematiksel ispatlar, kod sentezi, mantıksal analiz ve planlama gibi zorlu çok adımlı görevler için optimize edilmiştir ve çıkarım sürecini varsayılan olarak yapılandırılmış “düşünce zinciri” biçiminde sunar. Performans açısından, yalnızca daha maliyetli modeller olan Qwen3-32B-Thinkingi değil, aynı zamanda Gemini-2.5-Flash-Thinkingi de birçok kıyaslama testinde geride bırakır."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner, Alibaba Tongyi Qianwen ekibinin Qwen3 serisinden bir görsel-dil modeli (VLM)'dir. Yüksek kaliteli, ayrıntılı ve doğru görsel açıklamalar üretmek için özel olarak tasarlanmıştır. 30 milyar toplam parametreye sahip karma uzman (MoE) mimarisi üzerine kuruludur ve görsel içeriği derinlemesine anlayarak bunu doğal ve akıcı metin açıklamalarına dönüştürebilir. Görsel detay yakalama, sahne anlama, nesne tanıma ve ilişki çıkarımı gibi alanlarda üstün performans gösterir. Özellikle hassas görsel anlama ve açıklama üretimi gerektiren uygulamalar için uygundur."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct, Alibaba Tongyi Qianwen ekibinin en yeni Qwen3 serisinin bir üyesidir. 30 milyar toplam parametre ve 3 milyar aktif parametreye sahip karma uzman (MoE) mimarisiyle, güçlü performansını korurken çıkarım maliyetini etkin şekilde düşürür. Yüksek kaliteli, çok kaynaklı ve çok dilli verilerle eğitilmiştir; güçlü genel yeteneklere sahiptir ve metin, görsel, ses ve video dahil olmak üzere tüm modlarda girdi işleyebilir. Modlar arası içerik anlama ve üretme yeteneğine sahiptir."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking, Qwen3-Omni çok modlu modelinin çekirdek \"düşünen\" (Thinker) bileşenidir. Metin, ses, görsel ve video dahil olmak üzere çok modlu girdileri işlemek ve karmaşık düşünce zinciri çıkarımı gerçekleştirmek üzere tasarlanmıştır. Çıkarımın beyni olarak, tüm girdileri ortak bir temsili alana dönüştürerek modlar arası derin anlama ve karmaşık çıkarım yetenekleri sağlar. Karma uzman (MoE) mimarisi üzerine kuruludur, 30 milyar toplam parametre ve 3 milyar aktif parametreye sahiptir; güçlü çıkarım yeteneğini korurken hesaplama verimliliğini optimize eder."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct, Qwen3-VL serisinin büyük ölçekli talimatla ince ayarlanmış modelidir. Karışık uzman (MoE) mimarisi üzerine kuruludur ve üstün çok modlu anlama ve üretim yeteneklerine sahiptir. Doğal olarak 256K bağlamı destekler ve yüksek eşzamanlı üretim düzeyinde çok modlu hizmetler için uygundur."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking, Qwen3-VL serisinin akıl yürütme yetenekleri geliştirilmiş (Thinking) sürümüdür. Çok modlu akıl yürütme, görselden koda dönüşüm ve karmaşık görsel anlama görevlerinde optimize edilmiştir. 256K bağlam desteği sunar ve daha güçlü zincirleme düşünme yeteneğine sahiptir."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct, Alibaba Tongyi Qianwen ekibi tarafından geliştirilen bir görsel-dil modelidir ve birçok görsel-dil kıyaslamasında SOTA (state-of-the-art) performans elde etmiştir. Milyon piksel seviyesinde yüksek çözünürlüklü görsel girdileri destekler ve güçlü genel görsel anlama, çok dilli OCR, ince ayrıntılı görsel konumlandırma ve görsel diyalog yeteneklerine sahiptir. Qwen3 serisinin bir görsel-dil modeli olarak, karmaşık çok modlu görevleri işleyebilir; araç çağırma ve ön ek tamamlama gibi gelişmiş işlevleri destekler."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking, Alibaba Tongyi Qianwen ekibi tarafından geliştirilen görsel-dil modelleri arasında, karmaşık görsel çıkarım görevleri için özel olarak optimize edilmiş bir versiyondur. Dahili \"düşünme modu\" sayesinde, soruları yanıtlamadan önce ayrıntılı ara çıkarım adımları üretebilir; bu da çok adımlı mantık, planlama ve karmaşık çıkarım gerektiren görevlerde performansını önemli ölçüde artırır. Milyon piksel seviyesinde yüksek çözünürlüklü görsel girdileri destekler; güçlü genel görsel anlama, çok dilli OCR, ince ayrıntılı görsel konumlandırma ve görsel diyalog yeteneklerine sahiptir. Ayrıca araç çağırma ve ön ek tamamlama gibi işlevleri destekler."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct, Qwen3 serisinin bir görsel-dil modelidir. Qwen3-8B-Instruct temel alınarak geliştirilmiş ve büyük miktarda görsel-metin verisiyle eğitilmiştir. Genel görsel anlama, görsel odaklı diyaloglar ve görsellerde çok dilli metin tanıma konularında uzmandır. Görsel soru-cevap, görsel betimleme, çok modlu komut takibi ve araç çağırma gibi senaryolarda kullanılabilir."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct, yüksek güvenilirlikte talimat işleme yetenekleri sunar ve çok çeşitli endüstri uygulamalarını destekler."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR, DeepSeek AI tarafından geliştirilen bir görsel-dil modelidir ve optik karakter tanıma (OCR) ile \"bağlam optik sıkıştırma\"ya odaklanır. Görsellerden bağlamsal bilgiyi sıkıştırma sınırlarını keşfetmeyi amaçlar; belgeleri verimli şekilde işleyerek Markdown gibi yapılandırılmış metin formatlarına dönüştürebilir. Görsellerdeki metin içeriğini doğru şekilde tanıyabilir; özellikle belge dijitalleştirme, metin çıkarımı ve yapılandırılmış işleme gibi uygulamalar için uygundur."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1, tekrarlayan öğrenme (RL) destekli bir çıkarım modelidir ve modeldeki tekrarlama ve okunabilirlik sorunlarını çözmektedir. RL'den önce, DeepSeek-R1 soğuk başlangıç verilerini tanıtarak çıkarım performansını daha da optimize etmiştir. Matematik, kod ve çıkarım görevlerinde OpenAI-o1 ile benzer bir performans sergilemekte ve özenle tasarlanmış eğitim yöntemleri ile genel etkisini artırmaktadır."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B, Google tarafından geliştirilen açık kaynaklı bir dil modelidir ve verimlilik ile performansta yeni standartlar belirlemiştir."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B, Google tarafından geliştirilen açık kaynaklı bir dil modelidir ve verimlilik ile performansta yeni standartlar belirlemiştir."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B, Google'ın verimlilik ve performans açısından yeni standartlar belirleyen açık kaynaklı bir dil modelidir."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct, 80 milyar parametreye sahip olup, 13 milyar parametre etkinleştirilerek daha büyük modellerle rekabet edebilir; \"hızlı düşünme/yavaş düşünme\" karma akıl yürütmeyi destekler; uzun metin anlama kararlıdır; BFCL-v3 ve τ-Bench ile doğrulanmış, ajan yeteneklerinde liderdir; GQA ve çoklu kuantizasyon formatlarıyla birleşerek verimli akıl yürütme sağlar."
},
"tencent/Hunyuan-MT-7B": {
"description": "Hunyuan Çeviri Modeli, Hunyuan-MT-7B çeviri modeli ve Hunyuan-MT-Chimera birleşik modelinden oluşur. Hunyuan-MT-7B, 7 milyar parametreye sahip hafif bir çeviri modelidir ve kaynak metni hedef dile çevirmek için kullanılır. Model, 33 dili ve 5 Çin azınlık dilini destekleyen çift yönlü çeviri yeteneğine sahiptir. WMT25 uluslararası makine çevirisi yarışmasında, katıldığı 31 dil kategorisinin 30'unda birinci olarak üstün çeviri yeteneğini kanıtlamıştır. Çeviri senaryoları için Tencent Hunyuan, ön eğitimden denetimli ince ayara, ardından çeviri güçlendirme ve birleşik güçlendirmeye kadar eksiksiz bir eğitim paradigması sunmuştur. Bu sayede benzer ölçekli modeller arasında sektör lideri performansa ulaşmıştır. Model yüksek hesaplama verimliliğine sahiptir, kolayca dağıtılabilir ve çeşitli uygulama senaryolarına uygundur."
},
"text-embedding-3-large": {
"description": "En güçlü vektörleştirme modeli, İngilizce ve diğer dillerdeki görevler için uygundur."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick: Mô hình quy mô lớn dựa trên Mixture-of-Experts, cung cấp chiến lược kích hoạt chuyên gia hiệu quả để đạt hiệu suất xuất sắc trong suy luận."
},
"MiniMax-M1": {
"description": "Mô hình suy luận tự phát triển hoàn toàn mới. Dẫn đầu toàn cầu: 80K chuỗi tư duy x 1 triệu đầu vào, hiệu quả sánh ngang các mô hình hàng đầu quốc tế."
"description": "Mô hình suy luận tự phát triển hoàn toàn mới. Dẫn đầu toàn cầu: 80K chuỗi tư duy x 1M đầu vào, hiệu quả sánh ngang với các mô hình hàng đầu quốc tế"
},
"MiniMax-M2": {
"description": "Được thiết kế đặc biệt cho lập trình hiệu quả và quy trình làm việc của Agent"
},
"MiniMax-Text-01": {
"description": "Trong dòng mô hình MiniMax-01, chúng tôi đã thực hiện những đổi mới táo bạo: lần đầu tiên hiện thực hóa quy mô lớn cơ chế chú ý tuyến tính, kiến trúc Transformer truyền thống không còn là lựa chọn duy nhất. Mô hình này có số lượng tham số lên tới 4560 tỷ, trong đó kích hoạt một lần là 45,9 tỷ. Hiệu suất tổng hợp của mô hình tương đương với các mô hình hàng đầu quốc tế, đồng thời có khả năng xử lý hiệu quả ngữ cảnh dài nhất toàn cầu lên tới 4 triệu token, gấp 32 lần GPT-4o và 20 lần Claude-3.5-Sonnet."
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking là mô hình nền tảng thế hệ tiếp theo do đội ngũ Alibaba Tongyi Qianwen phát hành, được thiết kế chuyên biệt cho các tác vụ suy luận phức tạp. Nó dựa trên kiến trúc sáng tạo Qwen3-Next, kết hợp cơ chế chú ý hỗn hợp (Gated DeltaNet và Gated Attention) và cấu trúc chuyên gia hỗn hợp có độ thưa cao (MoE), nhằm đạt hiệu quả tối ưu trong huấn luyện và suy luận. Là mô hình thưa với tổng số 80 tỷ tham số, nó chỉ kích hoạt khoảng 3 tỷ tham số trong quá trình suy luận, giảm đáng kể chi phí tính toán, và khi xử lý các tác vụ ngữ cảnh dài trên 32K token, thông lượng cao hơn mô hình Qwen3-32B hơn 10 lần. Phiên bản “Thinking” này được tối ưu để thực hiện các tác vụ đa bước khó như chứng minh toán học, tổng hợp mã, phân tích logic và lập kế hoạch, và mặc định xuất ra quá trình suy luận dưới dạng chuỗi suy nghĩ có cấu trúc. Về hiệu năng, nó không chỉ vượt trội so với các mô hình có chi phí cao hơn như Qwen3-32B-Thinking mà còn vượt qua Gemini-2.5-Flash-Thinking trong nhiều bài kiểm tra chuẩn."
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner là một mô hình ngôn ngữ thị giác (VLM) thuộc dòng Qwen3 do nhóm Tongyi Qianwen của Alibaba phát triển. Mô hình này chuyên dùng để tạo ra các mô tả hình ảnh chất lượng cao, chi tiết và chính xác. Dựa trên kiến trúc chuyên gia hỗn hợp (MoE) với tổng cộng 30 tỷ tham số, nó có khả năng hiểu sâu nội dung hình ảnh và chuyển đổi thành mô tả ngôn ngữ tự nhiên mượt mà. Mô hình thể hiện xuất sắc trong việc nắm bắt chi tiết hình ảnh, hiểu cảnh vật, nhận diện đối tượng và suy luận mối quan hệ, đặc biệt phù hợp với các ứng dụng yêu cầu hiểu và mô tả hình ảnh chính xác."
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct là một thành viên trong dòng Qwen3 mới nhất do nhóm Tongyi Qianwen của Alibaba phát triển. Đây là mô hình chuyên gia hỗn hợp (MoE) với tổng cộng 30 tỷ tham số và 3 tỷ tham số kích hoạt, giúp duy trì hiệu suất mạnh mẽ trong khi giảm chi phí suy luận. Mô hình được huấn luyện trên dữ liệu chất lượng cao, đa nguồn và đa ngôn ngữ, sở hữu năng lực tổng quát vượt trội, hỗ trợ xử lý đầu vào toàn bộ các dạng thức như văn bản, hình ảnh, âm thanh và video, có khả năng hiểu và tạo nội dung xuyên mô thức."
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking là thành phần \"người suy nghĩ\" (Thinker) cốt lõi trong mô hình toàn mô thức Qwen3-Omni. Nó chuyên xử lý các đầu vào đa mô thức bao gồm văn bản, âm thanh, hình ảnh và video, thực hiện suy luận chuỗi tư duy phức tạp. Là bộ não của quá trình suy luận, mô hình này thống nhất tất cả đầu vào vào không gian biểu diễn chung, từ đó đạt được khả năng hiểu sâu và suy luận phức tạp xuyên mô thức. Dựa trên kiến trúc chuyên gia hỗn hợp (MoE) với 30 tỷ tham số và 3 tỷ tham số kích hoạt, mô hình tối ưu hóa hiệu quả tính toán trong khi vẫn duy trì năng lực suy luận mạnh mẽ."
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct là mô hình tinh chỉnh theo chỉ dẫn quy mô lớn thuộc dòng Qwen3-VL, dựa trên kiến trúc chuyên gia hỗn hợp (MoE), sở hữu khả năng hiểu và tạo nội dung đa phương tiện vượt trội, hỗ trợ nguyên bản ngữ cảnh lên đến 256K, thích hợp cho các dịch vụ đa phương tiện cấp độ sản xuất với yêu cầu đồng thời cao."
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking là phiên bản tăng cường suy luận (Thinking) của Qwen3-VL, được tối ưu hóa cho các tác vụ suy luận đa phương tiện, chuyển đổi hình ảnh thành mã và hiểu hình ảnh phức tạp, hỗ trợ ngữ cảnh lên đến 256K và có khả năng tư duy chuỗi mạnh mẽ hơn."
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct là một mô hình ngôn ngữ thị giác do nhóm Tongyi Qianwen của Alibaba phát triển, đạt hiệu suất SOTA hàng đầu trong nhiều bài kiểm tra chuẩn ngôn ngữ thị giác. Mô hình hỗ trợ đầu vào hình ảnh độ phân giải cao cấp độ megapixel, sở hữu năng lực hiểu thị giác tổng quát mạnh mẽ, nhận diện ký tự đa ngôn ngữ (OCR), định vị thị giác chi tiết và đối thoại thị giác. Là một mô hình ngôn ngữ thị giác trong dòng Qwen3, nó có thể xử lý các nhiệm vụ đa mô thức phức tạp, hỗ trợ gọi công cụ và tiếp tục tiền tố."
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking là phiên bản được tối ưu đặc biệt cho các nhiệm vụ suy luận thị giác phức tạp trong dòng mô hình ngôn ngữ thị giác do nhóm Tongyi Qianwen của Alibaba phát triển. Mô hình tích hợp chế độ \"suy nghĩ\", cho phép tạo ra các bước suy luận trung gian chi tiết trước khi trả lời câu hỏi, từ đó nâng cao đáng kể hiệu suất trong các nhiệm vụ đòi hỏi logic nhiều bước, lập kế hoạch và suy luận phức tạp. Mô hình hỗ trợ đầu vào hình ảnh độ phân giải cao cấp độ megapixel, có năng lực hiểu thị giác tổng quát mạnh mẽ, nhận diện ký tự đa ngôn ngữ (OCR), định vị thị giác chi tiết và đối thoại thị giác, đồng thời hỗ trợ gọi công cụ và tiếp tục tiền tố."
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct là mô hình ngôn ngữ thị giác thuộc dòng Qwen3, được phát triển dựa trên Qwen3-8B-Instruct và huấn luyện trên lượng lớn dữ liệu hình ảnh và văn bản. Mô hình này có thế mạnh trong hiểu thị giác tổng quát, đối thoại xoay quanh hình ảnh và nhận diện văn bản đa ngôn ngữ trong ảnh. Phù hợp với các tình huống như hỏi đáp thị giác, mô tả hình ảnh, tuân theo chỉ dẫn đa phương thức và gọi công cụ."
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct cung cấp khả năng xử lý chỉ dẫn đáng tin cậy, hỗ trợ nhiều ứng dụng trong ngành."
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR là một mô hình ngôn ngữ thị giác do DeepSeek AI phát triển, tập trung vào nhận diện ký tự quang học (OCR) và \"nén quang học theo ngữ cảnh\". Mô hình này nhằm khám phá giới hạn của việc nén thông tin ngữ cảnh từ hình ảnh, có khả năng xử lý tài liệu hiệu quả và chuyển đổi chúng thành các định dạng văn bản có cấu trúc như Markdown. Nó có thể nhận diện chính xác nội dung văn bản trong hình ảnh, đặc biệt phù hợp với các ứng dụng số hóa tài liệu, trích xuất văn bản và xử lý có cấu trúc."
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 là một mô hình suy diễn được điều khiển bởi học tăng cường (RL), giải quyết các vấn đề về tính lặp lại và khả năng đọc hiểu trong mô hình. Trước khi áp dụng RL, DeepSeek-R1 đã giới thiệu dữ liệu khởi động lạnh, tối ưu hóa thêm hiệu suất suy diễn. Nó thể hiện hiệu suất tương đương với OpenAI-o1 trong các nhiệm vụ toán học, mã và suy diễn, và thông qua phương pháp đào tạo được thiết kế cẩn thận, nâng cao hiệu quả tổng thể."
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B là một mô hình ngôn ngữ mã nguồn mở của Google, thiết lập tiêu chuẩn mới về hiệu quả và hiệu suất."
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B là một mô hình ngôn ngữ mã nguồn mở của Google, thiết lập tiêu chuẩn mới về hiệu quả và hiệu suất."
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B là một mô hình ngôn ngữ mã nguồn mở của Google, thiết lập tiêu chuẩn mới về hiệu suất và hiệu quả."
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct có 80 tỷ tham số, kích hoạt 13 tỷ tham số để đạt hiệu năng tương đương các mô hình lớn hơn, hỗ trợ suy luận kết hợp “tư duy nhanh/tư duy chậm”; khả năng hiểu văn bản dài ổn định; được xác nhận qua BFCL-v3 và τ-Bench, năng lực Agent dẫn đầu; kết hợp GQA và nhiều định dạng lượng tử hóa, đạt hiệu quả suy luận cao."
},
"tencent/Hunyuan-MT-7B": {
"description": "Mô hình dịch Hunyuan (Hunyuan Translation Model) bao gồm một mô hình dịch Hunyuan-MT-7B và một mô hình tích hợp Hunyuan-MT-Chimera. Hunyuan-MT-7B là một mô hình dịch nhẹ với 7 tỷ tham số, dùng để dịch văn bản nguồn sang ngôn ngữ đích. Mô hình hỗ trợ dịch qua lại giữa 33 ngôn ngữ và 5 ngôn ngữ dân tộc thiểu số Trung Quốc. Trong cuộc thi dịch máy quốc tế WMT25, Hunyuan-MT-7B đã giành được 30 giải nhất trong số 31 hạng mục ngôn ngữ tham gia, thể hiện năng lực dịch thuật xuất sắc. Đối với các tình huống dịch thuật, Tencent Hunyuan đã đề xuất một quy trình huấn luyện hoàn chỉnh từ tiền huấn luyện đến tinh chỉnh có giám sát, sau đó là tăng cường dịch thuật và tăng cường tích hợp, giúp mô hình đạt hiệu suất hàng đầu trong các mô hình cùng quy mô. Mô hình có hiệu suất tính toán cao, dễ triển khai và phù hợp với nhiều tình huống ứng dụng."
},
"text-embedding-3-large": {
"description": "Mô hình vector hóa mạnh mẽ nhất, phù hợp cho các nhiệm vụ tiếng Anh và không phải tiếng Anh."
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick基于 Mixture-of-Experts 的大规模模型,提供高效的专家激活策略以在推理中表现优异。"
},
"MiniMax-M1": {
"description": "全新自研推理模型。全球领先80K思维链 x 1M输入效果比肩海外顶尖模型。"
"description": "全新自研推理模型。全球领先80K 思维链 x 1M 输入,效果比肩海外顶尖模型"
},
"MiniMax-M2": {
"description": "专为高效编码与Agent工作流而生"
},
"MiniMax-Text-01": {
"description": "在 MiniMax-01系列模型中我们做了大胆创新首次大规模实现线性注意力机制传统 Transformer架构不再是唯一的选择。这个模型的参数量高达4560亿其中单次激活459亿。模型综合性能比肩海外顶尖模型同时能够高效处理全球最长400万token的上下文是GPT-4o的32倍Claude-3.5-Sonnet的20倍。"
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking 是由阿里巴巴通义千问团队发布的、专为复杂推理任务设计的下一代基础模型。它基于创新的 Qwen3-Next 架构该架构融合了混合注意力机制Gated DeltaNet 与 Gated Attention和高稀疏度混合专家MoE结构旨在实现极致的训练与推理效率。作为一个总参数达 800 亿的稀疏模型,它在推理时仅激活约 30 亿参数,大幅降低了计算成本,在处理超过 32K tokens 的长上下文任务时,吞吐量比 Qwen3-32B 模型高出 10 倍以上。此“Thinking”版本专为执行数学证明、代码综合、逻辑分析和规划等高难度多步任务而优化并默认以结构化的“思维链”形式输出推理过程。在性能上它不仅超越了 Qwen3-32B-Thinking 等成本更高的模型,还在多个基准测试中优于 Gemini-2.5-Flash-Thinking。"
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner 是阿里巴巴通义千问团队 Qwen3 系列中的一款视觉语言模型VLM。它专门用于生成高质量、详细且准确的图像描述。该模型基于 300 亿总参数的混合专家MoE架构能够深入理解图像内容并将其转化为自然流畅的文字描述。它在图像细节捕捉、场景理解、物体识别和关系推理等方面表现卓越特别适合需要精确图像理解和描述生成的应用场景。"
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct 是阿里巴巴通义千问团队最新 Qwen3 系列中的一员。它是一个拥有 300 亿总参数和 30 亿激活参数的混合专家MoE模型在保持强大性能的同时有效降低了推理成本。该模型在高质量、多来源、多语言的数据上进行训练具备强大的通用能力支持全模态输入处理包括文本、图像、音频和视频能够理解和生成跨模态的内容。"
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking 是 Qwen3-Omni 全模态模型中的核心\"思考者\"Thinker组件。它专门负责处理包括文本、音频、图像和视频在内的多模态输入并执行复杂的思维链推理。作为推理的大脑该模型将所有输入统一到通用的表征空间中实现跨模态的深度理解和复杂推理能力。该模型基于混合专家MoE架构拥有 300 亿总参数和 30 亿激活参数,能够在保持强大推理能力的同时优化计算效率。"
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct 是 Qwen3-VL 系列的大型指令微调模型基于混合专家MoE架构拥有卓越的多模态理解与生成能力原生支持 256K 上下文,适用于高并发生产级多模态服务。"
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking 是 Qwen3-VL 的推理增强版本Thinking在多模态推理、图像到代码和复杂视觉理解任务上进行了优化支持 256K 上下文并具备更强的链式思考能力。"
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct 是阿里巴巴通义千问团队推出的视觉语言模型,在多个视觉语言基准测试中取得了领先的 SOTA 性能。该模型支持百万像素级别的高分辨率图像输入,并具备强大的通用视觉理解、多语言 OCR、细粒度视觉定位和视觉对话能力。作为 Qwen3 系列中的视觉语言模型,它能够处理复杂的多模态任务,支持工具调用和前缀续写等高级功能。"
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking 是阿里巴巴通义千问团队推出的视觉语言模型中一个为复杂视觉推理任务特别优化的版本。该模型内置了\"思考模式\",使其在回答问题前能够生成详细的中间推理步骤,从而显著增强其在需要多步逻辑、规划和复杂推理的任务上的表现。该模型支持百万像素级别的高分辨率图像输入,具备强大的通用视觉理解、多语言 OCR、细粒度视觉定位和视觉对话能力并支持工具调用和前缀续写等功能。"
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct 是 Qwen3 系列的视觉语言模型,基于 Qwen3-8B-Instruct 开发并在大量图文数据上训练,擅长通用视觉理解、以视觉为中心的对话以及图像中的多语言文本识别。适用于视觉问答、图像描述、多模态指令跟随与工具调用场景。"
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct 提供高可靠性的指令处理能力,支持多行业应用。"
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR 是由深度求索DeepSeek AI推出的一个视觉语言模型专注于光学字符识别OCR与\"上下文光学压缩\"。该模型旨在探索从图像中压缩上下文信息的边界,能够高效处理文档并将其转换为如 Markdown 等结构化文本格式。它能够准确识别图像中的文字内容,特别适用于文档数字化、文字提取和结构化处理等应用场景。"
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 系列通过强化学习与冷启动数据优化推理性能,开源模型刷新多任务标杆,超越 OpenAI-o1-mini 水平。"
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B 是谷歌的一款开源语言模型,以其在效率和性能方面设立了新的标准。"
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B 是谷歌的一款开源语言模型,以其在效率和性能方面设立了新的标准。"
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B 是谷歌的一款开源语言模型,以其在效率和性能方面设立了新的标准。"
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct 参数量800 亿,激活 130 亿参数即可对标更大模型,支持“快思考/慢思考”混合推理;长文理解稳定;经 BFCL-v3 与 τ-Bench 验证Agent 能力领先;结合 GQA 与多量化格式,实现高效推理。"
},
"tencent/Hunyuan-MT-7B": {
"description": "混元翻译模型Hunyuan Translation Model由一个翻译模型 Hunyuan-MT-7B 和一个集成模型 Hunyuan-MT-Chimera 组成。Hunyuan-MT-7B 是一个拥有 70 亿参数的轻量级翻译模型,用于将源文本翻译成目标语言。该模型支持 33 种语言以及 5 种中国少数民族语言的互译。在 WMT25 国际机器翻译竞赛中Hunyuan-MT-7B 在其参与的 31 个语言类别中获得了 30 个第一名,展现了其卓越的翻译能力。针对翻译场景,腾讯混元提出了一个从预训练到监督微调、再到翻译强化和集成强化的完整训练范式,使其在同等规模的模型中达到了业界领先的性能。该模型计算效率高、易于部署,适合多种应用场景。"
},
"text-embedding-3-large": {
"description": "最强大的向量化模型,适用于英文和非英文任务"
},

View File

@ -222,7 +222,10 @@
"description": "Llama 4 Maverick基於 Mixture-of-Experts 的大規模模型,提供高效的專家啟動策略以在推理中表現優異。"
},
"MiniMax-M1": {
"description": "全新自研推理模型。全球領先80K思維鏈 x 1M輸入效果比肩海外頂尖模型。"
"description": "全新自研推理模型。全球領先80K 思維鏈 x 1M 輸入,效果媲美海外頂尖模型"
},
"MiniMax-M2": {
"description": "專為高效編碼與 Agent 工作流程而生"
},
"MiniMax-Text-01": {
"description": "在 MiniMax-01系列模型中我們做了大膽創新首次大規模實現線性注意力機制傳統 Transformer架構不再是唯一的選擇。這個模型的參數量高達4560億其中單次激活459億。模型綜合性能比肩海外頂尖模型同時能夠高效處理全球最長400萬token的上下文是GPT-4o的32倍Claude-3.5-Sonnet的20倍。"
@ -398,6 +401,15 @@
"Qwen/Qwen3-Next-80B-A3B-Thinking": {
"description": "Qwen3-Next-80B-A3B-Thinking 是由阿里巴巴通義千問團隊發布的、專為複雜推理任務設計的下一代基礎模型。它基於創新的 Qwen3-Next 架構該架構融合了混合注意力機制Gated DeltaNet 與 Gated Attention和高稀疏度混合專家MoE結構旨在實現極致的訓練與推理效率。作為一個總參數達 800 億的稀疏模型,它在推理時僅啟動約 30 億參數,大幅降低了計算成本,在處理超過 32K tokens 的長上下文任務時,吞吐量比 Qwen3-32B 模型高出 10 倍以上。此“Thinking”版本專為執行數學證明、程式碼綜合、邏輯分析和規劃等高難度多步任務而優化並預設以結構化的“思維鏈”形式輸出推理過程。在性能上它不僅超越了 Qwen3-32B-Thinking 等成本更高的模型,還在多個基準測試中優於 Gemini-2.5-Flash-Thinking。"
},
"Qwen/Qwen3-Omni-30B-A3B-Captioner": {
"description": "Qwen3-Omni-30B-A3B-Captioner 是阿里巴巴通義千問團隊 Qwen3 系列中的一款視覺語言模型VLM。它專門用於生成高品質、詳細且準確的圖像描述。該模型基於 300 億總參數的混合專家MoE架構能夠深入理解圖像內容並將其轉化為自然流暢的文字描述。它在圖像細節捕捉、場景理解、物體識別與關係推理等方面表現卓越特別適合需要精確圖像理解與描述生成的應用場景。"
},
"Qwen/Qwen3-Omni-30B-A3B-Instruct": {
"description": "Qwen3-Omni-30B-A3B-Instruct 是阿里巴巴通義千問團隊最新 Qwen3 系列中的一員。它是一個擁有 300 億總參數與 30 億啟用參數的混合專家MoE模型在保持強大效能的同時有效降低了推理成本。該模型在高品質、多來源、多語言的資料上進行訓練具備強大的通用能力支援全模態輸入處理包括文字、圖像、音訊與影片能夠理解並生成跨模態內容。"
},
"Qwen/Qwen3-Omni-30B-A3B-Thinking": {
"description": "Qwen3-Omni-30B-A3B-Thinking 是 Qwen3-Omni 全模態模型中的核心「思考者」Thinker元件。它專門負責處理包括文字、音訊、圖像與影片在內的多模態輸入並執行複雜的思維鏈推理。作為推理的大腦該模型將所有輸入統一至通用的表徵空間中實現跨模態的深度理解與複雜推理能力。該模型基於混合專家MoE架構擁有 300 億總參數與 30 億啟用參數,能在保持強大推理能力的同時優化運算效率。"
},
"Qwen/Qwen3-VL-235B-A22B-Instruct": {
"description": "Qwen3-VL-235B-A22B-Instruct 是 Qwen3-VL 系列的大型指令微調模型基於混合專家MoE架構擁有卓越的多模態理解與生成能力原生支援 256K 上下文,適用於高併發生產級多模態服務。"
},
@ -410,6 +422,12 @@
"Qwen/Qwen3-VL-30B-A3B-Thinking": {
"description": "Qwen3-VL-30B-A3B-Thinking 是 Qwen3-VL 的推理增強版本Thinking在多模態推理、圖像轉程式碼與複雜視覺理解任務上進行了優化支援 256K 上下文並具備更強的鏈式思考能力。"
},
"Qwen/Qwen3-VL-32B-Instruct": {
"description": "Qwen3-VL-32B-Instruct 是阿里巴巴通義千問團隊推出的視覺語言模型,在多項視覺語言基準測試中取得領先的 SOTA 表現。該模型支援百萬像素等級的高解析度圖像輸入,並具備強大的通用視覺理解、多語言 OCR、細緻視覺定位與視覺對話能力。作為 Qwen3 系列中的視覺語言模型,它能處理複雜的多模態任務,支援工具調用與前綴續寫等進階功能。"
},
"Qwen/Qwen3-VL-32B-Thinking": {
"description": "Qwen3-VL-32B-Thinking 是阿里巴巴通義千問團隊推出的視覺語言模型中一個針對複雜視覺推理任務特別優化的版本。該模型內建「思考模式」,使其在回答問題前能生成詳細的中間推理步驟,從而顯著提升其在需要多步邏輯、規劃與複雜推理任務中的表現。該模型支援百萬像素等級的高解析度圖像輸入,具備強大的通用視覺理解、多語言 OCR、細緻視覺定位與視覺對話能力並支援工具調用與前綴續寫等功能。"
},
"Qwen/Qwen3-VL-8B-Instruct": {
"description": "Qwen3-VL-8B-Instruct 是 Qwen3 系列的視覺語言模型,基於 Qwen3-8B-Instruct 開發,並在大量圖文資料上進行訓練,擅長通用視覺理解、以視覺為核心的對話以及圖像中的多語言文字識別。適用於視覺問答、圖像描述、多模態指令跟隨與工具調用等場景。"
},
@ -959,6 +977,9 @@
"databricks/dbrx-instruct": {
"description": "DBRX Instruct 提供高可靠性的指令處理能力,支持多行業應用。"
},
"deepseek-ai/DeepSeek-OCR": {
"description": "DeepSeek-OCR 是由深度求索DeepSeek AI推出的一款視覺語言模型專注於光學字元識別OCR與「上下文光學壓縮」。該模型旨在探索從圖像中壓縮上下文資訊的極限能高效處理文件並將其轉換為如 Markdown 等結構化文字格式。它能準確識別圖像中的文字內容,特別適用於文件數位化、文字擷取與結構化處理等應用場景。"
},
"deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 是一款強化學習RL驅動的推理模型解決了模型中的重複性和可讀性問題。在 RL 之前DeepSeek-R1 引入了冷啟動數據,進一步優化了推理性能。它在數學、程式碼和推理任務中與 OpenAI-o1 表現相當,並且通過精心設計的訓練方法,提升了整體效果。"
},
@ -1670,9 +1691,6 @@
"google/gemma-3-12b-it": {
"description": "Gemma 3 12B 是谷歌的一款開源語言模型,以其在效率和性能方面樹立了新的標準。"
},
"google/gemma-3-1b-it": {
"description": "Gemma 3 1B 是谷歌的一款開源語言模型,以其在效率和性能方面樹立了新的標準。"
},
"google/gemma-3-27b-it": {
"description": "Gemma 3 27B 是谷歌的一款開源語言模型,以其在效率和性能方面設立了新的標準。"
},
@ -3149,6 +3167,9 @@
"tencent/Hunyuan-A13B-Instruct": {
"description": "Hunyuan-A13B-Instruct 參數量800 億,啟動 130 億參數即可對標更大模型,支援「快思考/慢思考」混合推理;長文理解穩定;經 BFCL-v3 與 τ-Bench 驗證Agent 能力領先;結合 GQA 與多量化格式,實現高效推理。"
},
"tencent/Hunyuan-MT-7B": {
"description": "混元翻譯模型Hunyuan Translation Model由一個翻譯模型 Hunyuan-MT-7B 與一個整合模型 Hunyuan-MT-Chimera 組成。Hunyuan-MT-7B 是一個擁有 70 億參數的輕量級翻譯模型,用於將原文翻譯為目標語言。該模型支援 33 種語言以及 5 種中國少數民族語言的互譯。在 WMT25 國際機器翻譯競賽中Hunyuan-MT-7B 在其參與的 31 個語言類別中獲得了 30 個第一名,展現其卓越的翻譯能力。針對翻譯場景,騰訊混元提出了一套從預訓練到監督微調,再到翻譯強化與整合強化的完整訓練範式,使其在同等規模模型中達到業界領先的效能。該模型運算效率高、易於部署,適用於多種應用場景。"
},
"text-embedding-3-large": {
"description": "最強大的向量化模型,適用於英文和非英文任務"
},