4


Современные генеративные модели искусственного интеллекта поражают своими возможностями: они пишут тексты, создают изображения, программируют, а иногда даже смешно шутят. Однако, как показало новое исследование Эдинбургского университета, даже самые продвинутые ИИ всё ещё испытывают серьёзные трудности с некоторыми базовыми задачами, которые легко даются людям с самого раннего детства. В частности, речь идёт о чтении аналоговых часов и понимании календарей.
Учёные протестировали мультимодальные языковые модели, включая Gemini 2.0, Claude 3.5 Sonnet, Llama 3.2-11B-Vision-Instruct, Qwen2-VL7B-Instruct, MiniCPM-V-2.6, GPT-4o и GPT-o1. Результаты оказались разочаровывающими:
* При чтении аналоговых часов ИИ правильно определяли время менее чем в 25% случаев
* Больше всего ошибок возникало при наличии римских цифр, стилизованных стрелок и других нестандартных элементов декора
* Даже удаление секундной стрелки не улучшило точность, модели по-прежнему неправильно интерпретировали углы на циферблате
С календарями дела обстоят немного лучше. Используя изображения календарей за 10 лет, исследователи задавали моделям вопросы, такие как "Какой день недели был 1 января?" или "Какой день года является 153-м по счёту?".
Оказалось, что даже лучшие модели ошибаются в 20% случаев. GPT-o1 показал самый высокий результат, правильно отвечая в 80% случаев. Другие модели демонстрировали значительно худшую точность, особенно при сложных вопросах.
via