Сбер выпустил GigaChat 2.0
А поисковики с ИИ ошибаются в 2 из 3 результатов.
Сбер выпустил GigaChat 2.0
Сбер представил новую версию GigaChat 2.0 — усовершенствованную модель искусственного интеллекта, которая, по словам разработчиков, является одной из лучших в мире в области обработки естественного языка на русском языке.
Все три версии GigaChat 2.0 — MAX, Pro и Lite — были улучшены. Пользователи могут продолжить использовать модели первого поколения или протестировать обновлённые версии, прежде чем перейти на них. Все версии доступны через API в облаке и могут быть развёрнуты локально в инфраструктуре компании.
GigaChat 2.0 стал лучше в математике, естественных и гуманитарных науках, а также в программировании. На основе этой модели можно создавать автономных агентов искусственного интеллекта, способных решать сложные задачи.
По заявлениям разработчиков, GigaChat 2.0 лучше удерживает контекст беседы и анализирует больше текста. Предыдущая версия могла обработать около 48 страниц текста, а новая версия способна обработать уже 200 страниц. По предварительным данным, модель отвечает на вопросы на 25% лучше, соблюдая заданный формат и условия.
Согласно независимому бенчмарку MERA для русского языка, GigaChat 2 MAX занимает первое место среди моделей искусственного интеллекта. По результатам бенчмарков формата MMLU на русском и английском языках, версия 2.0 сравнима с зарубежными моделями. В сравнении с DeepSeek-V3, Qwen2.5 (версия Qwen-2.5-75b), GPT4o и LLaMA 70B, GigaChat 2 MAX лучше отвечает на фактологические вопросы на русском языке и демонстрирует глубокое понимание точных наук.
Поисковики с ИИ ошибаются в 2 из 3 результатов
Поисковые системы и чат-боты, оснащённые искусственным интеллектом, часто предоставляют неверные ответы на запросы пользователей. К такому заключению пришли специалисты из Columbia Journalism Review.
В ходе исследования были проанализированы результаты работы нейросетей в различных поисковых системах и чат-ботах, таких как ChatGPT Search от OpenAI, Perplexity, Deepseek Search, Microsoft Copilot, Grok и Gemini от Google.
Результаты показали, что в совокупности нейросети давали ошибочные ответы более чем на две трети запросов. При этом процент ошибок варьировался в зависимости от платформы. Например, Perplexity предоставляла неверные ответы в 37% случаев, в то время как у Grok этот показатель был гораздо выше — 94% ответов на запросы оказались ошибочными.
Кроме того, эксперты обнаружили, что генеративные поисковые инструменты генерировали ссылки и цитировали материалы, которые были скопированы с других сайтов. Это означает, что нейросети часто ссылаются не на первоисточники, а на сайты, которые дублируют чужой контент.