{
  "$type": "site.standard.document",
  "bskyPostRef": {
    "cid": "bafyreihdyyczrsgjhdierop3kjahoh4updqlgmmtcrzrzcggfrr5k6pxbe",
    "uri": "at://did:plc:6uy6dye3ds6ue6ntb4ve5fsy/app.bsky.feed.post/3mjpvhjowenn2"
  },
  "coverImage": {
    "$type": "blob",
    "ref": {
      "$link": "bafkreihsypuwquxopnahz3jshpiwymj3uok4pjq5k25i3jtayz2675cpui"
    },
    "mimeType": "image/jpeg",
    "size": 98203
  },
  "path": "/article/3105429/ollama-modell-macbook.html",
  "publishedAt": "2026-04-17T12:00:00.000Z",
  "site": "https://www.macwelt.de",
  "tags": [
    "MacBook",
    "Ollama",
    "Run this LLM"
  ],
  "textContent": "Auf der Webseite von Ollama finden sich mittlerweile über 200 frei verfügbare große Sprachmodelle, die sich über die Umgebung herunterladen, installieren und ausführen lassen. Doch abgesehen vom Einsatzgebiet wie Übersetzung, Fragenbeantwortung und Programmieren: Wie lässt sich herausfinden, ob das entsprechende Modell auf dem eigenem Rechner einigermaßen funktionieren wird?\n\nAnsatzweise wird der Blick in die Systeminformationen bei macOS diese Frage beantworten: Je größer der gemeinsame Speicher, desto größere Modelle können ausgeführt werden. Bei einem gemeinsamen Speicher von 8 GB sind lediglich Cloud-Anwendungen in der Praxis gut zu bewältigen. Unser Arbeits-Macbook Pro M2 mit einem solch eingeschränkten Speicher hat sich etwa bei den einfachsten Aufgaben in Ollama aufgehängt.\n\nEine gute Übersicht und Sortierung der passenden LL-Modelle für den eigenen Mac bietet die Webseite “Run this LLM“, sie unterstützt auch Macs mit Apple Silicon. Um passende Modelle zu finden, wählen Sie zunächst die Umgebung, in der Sie das Modell laufen lassen; Ollama ist dort als Standard eingestellt. Danach wählen Sie im Menü “Hardware” Apple Silicon, ansonsten sind die Angaben für Windows- oder Linux-Maschinen sichtbar. Ist “Apple Silicon” ausgewählt, müssen Sie im ersten Fenster “GPU VRAM” die Größe des gemeinsamen Speichers im Mac eintragen.\n\n## Die Frage der Quantisierung und der Kontextlänge\n\nMit einem entsprechend großen gemeinsamen Speicher können Sie Modelle im nativen Format F16 nutzen. Diese sind entsprechend größer, und erledigen die vor ihnen gestellten Aufgaben genauer. Auch Kontextlänge ist wichtig – damit ist die Menge von Tokens (Wörter oder Teilwörter) gemeint, die das Modell gleichzeitig speichern und bearbeiten kann. Bei kurzen allgemeinen Fragen eignet sich die Kontextlänge von wenigen Tausend Tokens, bei aufwendigen Aufgaben wie Programmieren oder Buchzusammenfassungen ist die Länge ab 64000 Tokens empfohlen.",
  "title": "Passendes Ollama-Modell für das Macbook finden"
}