alibaba

Qwen 3.7 Max

Qwen 3.7 Max — это флагманская модель Alibaba для глубокого reasoning и автономных агентных задач, с context window 256k и первоклассной производительностью в...

Thinking ModelCoding AssistantAgentic AIAlibaba CloudMoE Architecture
alibaba logoalibabaQwen320 мая 2026 г.
Контекст
256Kтокенов
Макс. вывод
66Kтокенов
Цена ввода
$1.20/ 1M
Цена вывода
$6.00/ 1M
Модальность:Text
Возможности:ИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
92.4%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Qwen 3.7 Max набрал 92.4% в этом бенчмарке.
HLE
38.2%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Qwen 3.7 Max набрал 38.2% в этом бенчмарке.
MMLU
92.8%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Qwen 3.7 Max набрал 92.8% в этом бенчмарке.
MMLU Pro
82%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Qwen 3.7 Max набрал 82% в этом бенчмарке.
SimpleQA
45%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Qwen 3.7 Max набрал 45% в этом бенчмарке.
IFEval
95%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Qwen 3.7 Max набрал 95% в этом бенчмарке.
AIME 2025
99.7%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Qwen 3.7 Max набрал 99.7% в этом бенчмарке.
MATH
94.8%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Qwen 3.7 Max набрал 94.8% в этом бенчмарке.
GSM8k
99.2%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Qwen 3.7 Max набрал 99.2% в этом бенчмарке.
MGSM
98%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Qwen 3.7 Max набрал 98% в этом бенчмарке.
SWE-Bench
60.6%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Qwen 3.7 Max набрал 60.6% в этом бенчмарке.
HumanEval
94.5%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Qwen 3.7 Max набрал 94.5% в этом бенчмарке.
LiveCodeBench
78.2%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Qwen 3.7 Max набрал 78.2% в этом бенчмарке.
Terminal-Bench
69.7%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Qwen 3.7 Max набрал 69.7% в этом бенчмарке.
ARC-AGI
12.4%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Qwen 3.7 Max набрал 12.4% в этом бенчмарке.

О модели Qwen 3.7 Max

Узнайте о возможностях, функциях и способах использования Qwen 3.7 Max.

Движок reasoning высокого порядка

Qwen 3.7 Max, это массивная система Mixture-of-Experts, содержащая около 1.6 триллиона параметров. Она спроектирована как логический движок для инженерных и исследовательских задач высокой сложности. Модель интегрирует встроенный режим Always-On Thinking, который заставляет систему проверять логику и планировать шаги перед генерацией ответа. Такой архитектурный выбор значительно снижает логический дрифт в длинных текстах и обеспечивает надежный фундамент для архитектуры ПО и математических доказательств.

Архитектура для автономного агентства

Эта модель служит специализированной базой для следующего поколения автономных агентов. Она фокусируется на долгосрочном управлении задачами и сложном использовании инструментов. Во время внутренних тестов модель поддерживала логическую связность на протяжении сессий длительностью более 30 часов, выполняя тысячи последовательных вызовов инструментов для решения инженерных задач аппаратного уровня. Несмотря на то, что модель оптимизирована для текста и кода для поддержания высокой плотности reasoning, она легко интегрируется с внешними визуальными или аудиомодулями через многоагентную оркестрацию.

Эффективность в больших контекстах

Благодаря context window в 256 000 tokens, модель поддерживает широкомасштабный анализ репозиториев и сложный поиск по документам. Она сохраняет высокую точность извлечения данных даже при заполнении окна, что делает её идеальной для юридических исследований и RAG-рабочих процессов корпоративного уровня. Конкурентная ценовая структура позволяет разработчикам использовать frontier-логику за малую долю стоимости сопоставимых моделей от западных лабораторий.

Qwen 3.7 Max

Варианты использования Qwen 3.7 Max

Откройте для себя различные способы использования Qwen 3.7 Max для достижения отличных результатов.

Автономная разработка ядер ОС

Модель генерирует и оптимизирует аппаратные программные ядра для новых чипов без существующей документации с помощью рекурсивных вызовов инструментов.

Рефакторинг корпоративных репозиториев

Qwen 3.7 Max анализирует целые устаревшие репозитории ПО для обновления фреймворков и устранения технического долга при сохранении логической целостности.

Планирование долгосрочных агентных задач

Управление многоэтапными рабочими процессами, требующими принятия автономных решений в течение непрерывных сессий продолжительностью более 30 часов.

Верификация научных исследований

Исследователи используют модель для проверки сложных математических доказательств и решения многоступенчатых научных задач с высокой логической точностью.

Продвинутое финансовое моделирование рисков

Анализ тысяч страниц финансовых данных для выявления аномалий и прогнозирования ROI с помощью структурированного reasoning.

Инженерная разработка UI между фреймворками

Создание функциональных фронтенд-прототипов с интегрированным управлением состоянием и сложной логикой непосредственно на основе инструкций на естественном языке.

Преимущества

Ограничения

Эффективность reasoning высшего уровня: Модель достигает 92.4% на GPQA, соответствуя или превосходя ведущие модели по качеству рассуждений при значительно меньшей стоимости.
Только текст: Версия Max не поддерживает зрение и аудио, что требует переключения на другую модель для multimodal задач.
Мастерство автономных агентов: С результатом 69.7 на Terminal-Bench, модель отлично справляется с навигацией в терминальной среде и автономным вызовом инструментов.
Отставание в эстетике дизайна: При высокой логической точности, сгенерированные UI и творческие материалы часто лишены визуального лоска, характерного для конкурентов типа Claude.
Масштабируемая архитектура MoE: Архитектура Mixture-of-Experts с 1.6T parameters обеспечивает высокую специализацию для различных задач без потери общей логики.
Стабильность preview-версий: В ранних preview-версиях иногда наблюдались логические зацикливания при извлечении данных из очень длинных документов по сравнению со стабильными сборками 3.6.
Точность следования инструкциям: Оценка 95.0% на IFEval демонстрирует превосходную способность следовать сложным многоуровневым форматам и логическим ограничениям.
Региональная предвзятость: Документация и культурные отсылки по умолчанию иногда отдают приоритет восточным рынкам, что может влиять на некоторые специфические западные творческие задачи.

Быстрый старт API

alibaba/qwen-3.7-max

Посмотреть документацию
alibaba SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.QWEN_API_KEY,
  baseURL: "https://dashscope.aliyuncs.com/compatible-mode/v1",
});

async function runReasoningTask() {
  const completion = await client.chat.completions.create({
    model: "qwen-3.7-max",
    messages: [
      { role: "system", content: "You are a senior software architect." },
      { role: "user", content: "Analyze this legacy kernel for potential race conditions." }
    ],
    temperature: 0.1,
  });
  console.log(completion.choices[0].message.content);
}

runReasoningTask();

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Qwen 3.7 Max

Посмотрите, что думает сообщество о Qwen 3.7 Max

Новый Qwen 3.7 от Китая, это безумие. Он создал калькулятор окупаемости SEO с четырьмя сложными параметрами ввода менее чем за 5 минут. Силиконовая долина нервничает.
Julian Goldie
youtube
Qwen3.7-Max, это модель с 1.6T parameters. Улучшение качества всего за один месяц после 3.6, самая быстрая итерация, которую я когда-либо видел.
AJ
twitter
Прогресс в NL2Repo, это главная новость. Они заявляют, что сравнялись с Claude Opus в программировании на уровне целых репозиториев.
TeortaxesTex
twitter
Qwen наконец-то уходит от петель бесконечных рассуждений 3.5. 3.7 Max preview гораздо более решительна при сохранении глубины логики.
LocalLLaMA
reddit
Qwen 3.7 Max стала первой моделью, которая серьезно конкурирует, а в некоторых задачах и превосходит Claude Opus 4.6 в технических вопросах.
TechInsights
twitter
Удалось запустить QWEN 3.6 27B локально, но производительность 3.7 Max в облаке, это совершенно другой уровень для сложного reasoning.
DevArchitect
hackernews

Видео о Qwen 3.7 Max

Смотрите обучающие материалы, обзоры и обсуждения о Qwen 3.7 Max

Процесс Chain of Thought необычайно быстр по сравнению с предыдущими итерациями.

Это лишь второй раз, когда я вижу, чтобы модель корректно реализовала следы от пуль на декорациях.

Логическая согласованность при многошаговой отладке кода заметно стабильнее, чем в preview 3.6.

Она справляется с context window 256k практически без потери данных.

Эта модель, мост между статичным заполнением и настоящим автономным планированием.

Context window составляет 256K tokens для версии Max, и важно отметить, что она работает только с текстом.

Мы наблюдаем гораздо меньше «размышлений» или избыточных рассуждений по сравнению с 3.5.

Производительность в терминальных средах говорит о том, что она может управлять сервером.

Qwen 3.7 Max значительно дешевле для корпоративных задач, требующих высокоуровневой логики.

У нее нет тех же проблем с культурным соответствием, которые наблюдались в некоторых ранних моделях.

Qwen 3.7 Max Preview занял 13-е место в общем зачете Text Arena.

Режим Thinking означает, что модель разбивает задачи на более мелкие шаги перед ответом.

Она создает сложные калькуляторы менее чем за пять минут с идеальным управлением состоянием.

Она специально оптимизирована для Agentic AI, что означает, что она действует, а не просто говорит.

Ценовая политика, это прямой вызов доминированию OpenAI на рынке разработчиков.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для Qwen 3.7 Max

Экспертные советы для максимальной эффективности Qwen 3.7 Max.

Принудительная проверка логики

Добавьте фразу «Проверь свои шаги размышления перед тем, как предоставлять финальный код», чтобы активировать встроенный режим deliberative reasoning.

Использование context caching

Для задач с одним и тем же огромным кодовым базисом используйте context caching, чтобы снизить latency и сократить расходы на input tokens.

Создание чек-листов для этапов

Предоставляйте пронумерованный список задач для объемных заданий, чтобы модель не пропускала промежуточные шаги при генерации длинных последовательностей.

Ограничение параметров дизайна

При генерации UI задавайте конкретные CSS-переменные для стилизации, чтобы компенсировать фокус модели на логике, а не на эстетике.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
openai

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context
$5.00/$30.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
anthropic

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context
$5.00/$25.00/1M
moonshot

Kimi k2.6

Moonshot

Kimi k2.6 is Moonshot AI's 1T-parameter MoE model featuring a 256K context window, native video input, and elite performance in autonomous agentic coding.

256K context
$0.95/$4.00/1M

Часто задаваемые вопросы о Qwen 3.7 Max

Найдите ответы на частые вопросы о Qwen 3.7 Max