Règles critiques et rapport technique: Sécurité des GPT-OSS
Le modèle gpt-oss-safeguard-120b et gpt-oss-safeguard-20b, dérivés des modèles gpt-oss, ont été post-entraînés pour raisonner selon une politique donnée afin d'étiqueter du contenu en conséquence. Ce rapport présente leurs capacités et évalue leur sécurité par rapport aux modèles gpt-oss initiaux, servant de référence. Pour plus de détails sur l'architecture des modèles gpt-oss, consulter la fiche technique originale.


