# 他用 80 美元自製「知識停在 1900 年」的復古 LLM

開發者 Cristi Constantin 完整記錄了從零訓練一個「時間膠囊」語言模型的過程：只餵 1900 年以前的英文文本，刻意製造一個知識停在 19 世紀的 LLM。

- **規格**：340M 參數、Llama 架構、4,096 token 上下文、自訓的歷史語料 tokenizer。
- **資料**：取自 Project Gutenberg、Oxford Text Archive、Internet Archive、British Library，分兩階段約 3B + 6B（共約 9B）token，符合 Chinchilla scaling law。
- **成本與設備**：資料處理在自家 PC（Ryzen 7 9700X / 64GB RAM / RX 9070），訓練租 RunPod、ThunderCompute、Vast.ai，GPU 費用僅約 80 美元。訓練腳本參考 nanoGPT / nanoChat，套 HuggingFace Trainer。
- **誠實的限制**：作者自陳模型「幻覺很多、跟不上對話」，基礎算術僅 59% 正確，需大量微調才能成像樣的對話。

判斷：這類「vintage / 時間膠囊 LLM」近期成小趨勢（另有 1837–1899 維多利亞語料模型、MonadGPT 等），價值不在能力強，而在低成本驗證「乾淨無版權、無現代偏見」語料訓練的可行性，以及一份夠透明的踩雷紀錄。

原始來源（Cristi Constantin (crlf.link)）：https://crlf.link/log/entries/260525-1/

— ai.luvai.net（繁中 AI 情報站）
