Olen suorittanut ARC-AGI-testit DeepSeekin, Alibaban, Googlen sekä OpenAI:n uusimmilla kielimalleilla. Testit ovat samat, jotka suoritin kesäkuussa 2024 Anthropicin Claude v3.5 Sonnet- ja GPT-4o-malleilla.
Kesäkuussa Sonnet saavutti ARC-AGI:n "arvaa ruudut" -tehtävässä 20,5 % onnistumisprosentin julkisella testidatalla. Testien suorittaminen kesti noin tunnin ja maksoi kymmenen euroa. GPT-4o:n tulos jäi selvästi heikommaksi, 8 %, ja sen testaus maksoi kaksinkertaisesti Sonnetiin verrattuna.
Testin tekninen kuvaus löytyy sivulta:
https://mesokosmos.notion.site/ARC-AGI-Claude-3-5-Sonnet-and-GPT-4o-comparison-1d90907ca1784832a0acc315882b1dc2
Testien lisäksi tässä kirjoituksessa tarkastelen mallien käyttökelpoisuutta erityisesti ohjelmoijan ja automaation näkökulmasta suhteessa AGI- eli yleistekoälytavoitteisiin.
21.–22.1. ja 1.–2.2.2025 suorittamissani automatisoiduissa testeissä ilmeni, että DeepSeek v3 ja r1 malleihin kohdistunut hype on ollut ainakin osin yliampuvaa:
Edullinen hinta johtuu voimassa olleesta 50 % alennuksesta. Helmikuusta lähtien vertailukelpoinen hinta olisi 0,87 dollaria. Verrattuna kesäkuussa testattuun Claude 3.5 Sonnetiin DeepSeek v3 on yli kymmenen kertaa halvempi, mutta sen suorituskyky jää lähes puolta heikommaksi, ja testin suorittaminen vie kaksinkertaisesti aikaa.
Tämä jää edelleen Sonnetin alapuolelle. Verrattuna v3-malliin r1:n suoritustulos on 4 % parempi, mikä on havaittava mutta suhteellisesti pieni parannus.
Yllättäen Sonnetin uusi versio suoriutui testistä prosenttiyksikön huonommin kuin edellinen malli.
DeepSeek v3 ja r1 jäävät tässä hahmonmuutostunnistukseen perustuvassa yleisälyn mittauksessa jälkeen sekä tarkkuudessa että suorituksen tehokkuudessa. Käytettäessä niitä API:n kautta ne ovat hieman halvempia tai saman hintaisia kuin vuosi sitten käytössä olleet Anthropicin mallit.
Miten sitten Googlen ja Alibaban mallit suoriutuivat testistä?
Nykyisin OpenAI:n ja DeepSeekin lisäksi myös Google tarjoaa päättelypainotteisia (thinking/reasoning) kielimalleja.