Írta: Ulrich Bantle
Linux Magazine online – 2024. március 28
A nagy nyelvi modellek gépi tanulási (LLM) technológiája rohamosan terjed, és már több, egymással versengő nyílt forráskódú és szabadalmaztatott architektúra is elérhető – írja a Sophos.
De hogyan lehet meghatározni, hogy egy adott gépi tanulási problémához melyik modell a legjobb? A SophosAI számos módot feltárt az LLM-ek kiberbiztonsággal kapcsolatos feladatokban való használatára.
A modell kiválasztásának módszereként a Sophos benchmark feladatokat hozott létre, amelyek célja a modell képességeinek egyszerű és gyors felmérése.
Mivel előfordulhat, hogy a biztonsági szakértelmet érintően a modellek között nincsenek különbségek, amelyek az általánosítás útján betanított adatokból származnak, a SophosAI csapata három új benchmarkot hozott létre:
- Az LLM incidensvizsgálati asszisztensként működik a természetes nyelvű telemetriai kérdések SQL-utasításokká alakításával.
- Az LLM incidens-összefoglalókat állít elő a Security Operations Center (SOC) adataiból.
- Az LLM felméri az incidens súlyosságát.
A Sophos AI csapata összesen 14 modellt választott ki olyan kritériumok alapján, mint a modell mérete, népszerűsége, kontextusmérete és frissessége, és tesztelte őket a benchmarkok segítségével – beleértve a Meta, az Amazon Titan Large és természetesen a LlaMa2 és CodeLlaMa modellek különböző méretű változatait, továbbá az iparágvezető GPT-4-et is. Az OpenAI eszköz egyértelműen az első két feladatban mutatta a legjobb teljesítményt. Érdekes módon a legutóbbi benchmark során egyik modell sem teljesített elég pontosan ahhoz, hogy az incidens súlyosságát jobb kategóriába sorolja, mint a véletlenszerű kiválasztás. Ez a blogbejegyzés minden részletet tartalmaz a benchmark-ok módszereiről és eredményeiről.