Feature Request: Critical Sharpness metric for training dynamics monitoring

## Summary
Request to investigate adding [critical sharpness](https://arxiv.org/abs/2601.16979v2) (λ_c) as a loggable training diagnostic. 

Critical sharpness measures loss landscape curvature using only forward passes — no Hessian computation — making it practical at scale. Validated on OLMo-2 up to 77B parameters. 

## Motivation
Training instabilities (loss spikes, divergence) are common in large-scale runs but difficult to diagnose. Standard metrics (loss, gradient norm) are lagging indicators. Critical sharpness provides a leading signal: it tracks how close the current learning rate is to the stability threshold, and progressive sharpening (curvature increasing over training) predicts instability before it manifests as a loss spike.

**Key findings at scale (OLMo-2, 7B–77B):**
- Progressive sharpening persists throughout pre-training (4T tokens) and mid-training (50B tokens) — first demonstration at this scale
- Critical sharpness tracks pre-conditioned Hessian sharpness, validating it as a cheap proxy
- **Relative critical sharpness** can guide data mixing decisions — identifies the ratio at which all task curvatures balance, allowing the largest stable learning rate without expensive ablations

**Relevance to Emerging Optimizers:**
- Enables apples-to-apples comparison of how different optimizers (Muon, Shampoo, SOAP, AdamW) interact with loss landscape curvature
- Guides learning rate selection relative to the stability edge for any optimizer

## Requested Feature
A periodic diagnostic utility that:

1. At a configurable step interval, runs ~5-6 extra forward passes with varied learning rates on the current update direction
2. Computes and logs critical sharpness λ_c (and optionally relative critical sharpness for multi-dataset runs)

## References
- [Critical Sharpness Paper (Kalra, Gagnon-Audet, Gromov et al., Meta FAIR)](https://arxiv.org/abs/2601.16979v2)
- [GitHub: facebookresearch/scalable-curvature](https://github.com/facebookresearch/scalable-curvature)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feature Request: Critical Sharpness metric for training dynamics monitoring #153

Summary

Motivation

Requested Feature

References

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Feature Request: Critical Sharpness metric for training dynamics monitoring #153

Description

Summary

Motivation

Requested Feature

References

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions