1B n-shot ICL STEM

Baseline results from Pythia-1B compared to Pythia-1B finetuned on the chemrxiv dataset before evaluating via n-shot learning (ICL) where n = [0, 1, 2, 3]

— = Random performance

Screenshot 2023-05-02 at 16.39.45.png

Screenshot 2023-05-02 at 16.39.13.png

Screenshot 2023-05-02 at 16.38.54.png

Screenshot 2023-05-02 at 16.40.24.png

Screenshot 2023-05-02 at 16.39.30.png

Screenshot 2023-05-02 at 16.40.35.png

Screenshot 2023-05-02 at 16.39.59.png

Screenshot 2023-05-02 at 16.40.13.png

Screenshot 2023-05-02 at 16.46.49.png