Evaluation Plan

Experiments

Results from evaluation pipeline

Results Reports

Baseline results

StableLM Baseline Results

1B Fine-tuned on Hendrycks STEM

1B n-shot ICL STEM

1B Fine-tuned for 5 Epochs

FT on mixed data: hendrycksSTEM + pubmed abstracts + wiki

Grid Search _ 300M pure data sets

1B models grid search over 1B tokens

1B models grid search over 4B tokens

1B models: smiles grid search over 1B tokens

1B Model 4B 100% PubMed tokens

1B model, 45B PubMed papers

1B, New BioMed Benchmarks

Mid-Training Evaluation for 1B EuroPMC

EuroPMC v0, 0-shot Evaluation