Inhaltsverzeichnis
Verstehen, was es bedeutet, ein KI-Modell zu „trainieren“
Viele Nicht-Techies haben eine falsche Vorstellung:
Sie haben interne Dokumente und wollen damit chatten.
Sie fragen uns: „Wie trainiert man ein KI-Modell mit Geschäftsdaten?“
Hierfür würden Sie bestehende große Sprachmodelle (LLMs) wie ChatGPT oder Deepseek verwenden!
Sie würden nicht Ihr eigenes KI-Modell trainieren.
Sie würden das LLM mit Retrieval-augmented generation (RAG) kombinieren, um mit internen Dokumenten zu chatten.
Es gibt jedoch viele andere Anwendungsfälle, die das Training eines KI-Modells erfordern.
Beispiele: Vorhersage von Krankheiten bei Patienten oder Bestimmung der notwendigen Wartung von Flugzeugtriebwerken.
Kürzlich habe ich mit jemandem gesprochen, der Betrugsvorhersagen für MercadoLibre macht.
MercadoLibre ist der größte Zahlungsabwickler in Lateinamerika und wickelt Milliarden von Dollar ab. Sie trainieren KI-Modelle, um Betrug zu verhindern, bevor er passieren kann.
Alles live, rund um die Uhr, maschinelles Lernen vom Feinsten! 😁
Alle Beispiele in diesem Blog-Artikel zum Trainieren von KI-Modellen mit Geschäftsdaten verwenden supervised learning. Ein Modell wird mit markierten Daten trainiert, d. h. jede Eingabe wird mit der richtigen Ausgabe gepaart.
Voraussetzungen
- Sie haben Daten zur Verfügung ✅
- Sie haben ein Ziel, das Sie vorhersagen wollen ✅
- Sie haben jemanden, der ein Modell trainieren kann ✅
Schritt 1: Datenexploration
Wichtigkeit der Datenexploration vor dem Training
Die Datenexploration ist wichtig für das Training von KI-Modellen mit Geschäftsdaten.
Sie umfasst die Bewertung der Datenqualität, der Struktur und der potenziellen Erkenntnisse.
Quellen wie Heavy AI betonen, wie wichtig es ist, fehlende Werte, Ausreißer und charakteristische Verteilungen zu identifizieren. Dies bildet die Grundlage für ein effektives Modelltraining.
Oder wie Hamel Husain es immer ausdrückt: „Schau dir deine Daten an!“
Techniken zur effektiven Datenvisualisierung
Verwendung von Python und Pandas für die Datenverarbeitung
Die Pandas-Bibliothek von Python ist für die Datenmanipulation und -bereinigung unverzichtbar. Ihre robusten Funktionen rationalisieren die Datenverarbeitung und stellen sicher, dass die Datensätze für die Visualisierung und das anschließende Training optimal vorbereitet sind.
Tools wie Matplotlib sind äußerst nützlich, um die Daten zu visualisieren und zu verstehen!
„So trainieren Sie ein KI-Modell“-Schritt 1 ist erledigt.

Schritt 2: Erstellen von Datensätzen
Bestimmung der Schlüsselmerkmale für die Vorhersage
Die Bestimmung der Merkmale, die eine Vorhersagekraft haben, ist entscheidend. Sie erfordert eine Mischung aus Fachwissen und Datenanalyse. Setzen Sie Prioritäten bei den wichtigen Merkmalen, um den Fokus des Modells auf wertvolle Erkenntnisse zu lenken.
Für die Vorhersage einer Krankheit könnten wichtige Merkmale eines Patienten sein:
- Alter
- Gewicht
- Größe
Die Augenfarbe und der Name des Patienten könnten für die Vorhersage einer Krankheit unwichtig sein.
Oder Sie stellen fest, dass der Name sehr wohl wichtig ist. Vielleicht stammen Menschen mit bestimmten Namen aus bestimmten Kulturen, die anfälliger für Krankheiten sind als andere.
Die Entscheidung, welche Merkmale wichtig sind, nennt man „Feature Engineering“.
Oft erstellt man auch neue Merkmale, die auf der Grundlage der vorhandenen Daten berechnet werden. Zum Beispiel:
- Wie viele Tage sind seit dem letzten Arztbesuch vergangen?
- Wohnt der Patient in einem bestimmten Gebiet mit hoher Luftverschmutzung? Wenn ja, fügen Sie vielleicht das Merkmal „polluted_area=True“ hinzu.
Aufteilung der Daten in Trainings-, Validierungs- und Testmenge
Normalerweise teilen Sie die Daten in 3 Datensätze auf:
- Trainingsmenge
- wird für das Training des Modells verwendet
- 70% der verfügbaren Daten
- Validierungssatz
- Alle X Trainingsiterationen des Modells wird das Modell auf der Grundlage des Validierungssatzes bewertet. Dies dient der Anpassung der Hyperparameter und dem frühzeitigen Stoppen, um ein Overfitting zu verhindern.
- 15% der verfügbaren Daten
- Testsatz
- Nachdem das gesamte Training mit dem train und val Set abgeschlossen ist, haben wir ein AI-Modell. Wir verwenden den Testsatz, um eine abschließende Bewertung seiner Leistung vorzunehmen.
- 15 % der verfügbaren Daten
Die Aufteilung der Daten ist entscheidend, wenn Sie darüber nachdenken, wie Sie ein KI-Modell trainieren können…
Stratifizierung
Es ist wichtig, dass die Daten in jedem aufgeteilten Datensatz unterschiedlich sind. Ein und derselbe Eintrag sollte nur in einem einzigen Satz enthalten sein.
Andernfalls kann sich das Modell die Daten einfach merken.
Es sieht eine betrügerische Transaktion im Trainingssatz mit der richtigen Vorhersage. Wenn es die gleiche betrügerische Transaktion in der Testmenge sieht, erinnert es sich einfach an die Trainingsmenge, dass sie betrügerisch war.
Dies wäre eine Form des Datenverlusts (schlecht).
Andererseits müssen die Daten in allen Splits ähnlich sein.
Stellen Sie sich vor, wir haben nur junge Patienten in der Trainingsmenge und nur alte Patienten in der Testmenge. Bei der Vorhersage für den Testsatz wird das KI-Modell viel zu oft sagen: „Sie sind gesund“. Denn es ist es gewohnt, mit jungen Patienten zu arbeiten.
Deshalb müssen wir etwas tun, das man Stratifizierung nennt.
Zunächst erstellen wir „Stratifikations“-Gruppen auf der Grundlage von Merkmalen. Dann stellen wir sicher, dass wir in jedem Datensatz, den wir aufteilen, eine ähnliche Anzahl von Gruppen haben.
Auf diese Weise haben alle Datensätze ähnliche, aber unterschiedliche Daten!
Perfekt, um einige nützliche KI-Modelle zu trainieren 👌🏼

Schritt 3: Vorverarbeitung von Daten
Wie trainiert man ein KI-Modell mit Geschäftsdaten?
Wir müssen die verfügbaren Daten in Zahlen umwandeln!
Diese Zahlen können dann verwendet werden, um ein KI-Modell zu trainieren.
Sie können entscheiden, ob Sie Ihre Daten skalieren wollen. Die Leistung einiger KI-Modelle wird durch die Skalierung beeinflusst, bei anderen ist dies nicht der Fall. Bei einigen Modellen kann die Skalierung die Interpretierbarkeit beeinflussen, bei anderen nicht.
Dieser Schritt, um zu wissen, wie man ein KI-Modell trainiert, ist nicht sehr umfangreich.
Also belassen wir es dabei.

Schritt 4 der Anleitung zum Trainieren eines AI-Modells: Modell-Training
In den vorangegangenen Schritten haben Sie bereits darüber nachgedacht, welche ML-Modelle für Ihre Daten geeignet sind:
- Handelt es sich um einen kleinen, mittelgroßen oder großen Datensatz?
- Handelt es sich bei Ihrer Vorhersageaufgabe um eine Klassifizierung, Regression, Sequenzvorhersage usw. ?
- Handelt es sich hauptsächlich um numerische Daten, Textdaten, Audiodaten, Bilder usw.?
Auf dieser Grundlage entscheiden Sie sich für das Training von 2 KI-Modellen:
- Basismodell
- Ein einfacheres Modell, das leichter zu implementieren ist. Z.B. logistische Regression
- Anspruchsvolleres Modell
- Ein komplizierteres Modell, das bessere Ergebnisse liefern soll. Z.B. Gradientenverstärkung
Das Basismodell legt die Grundlinie für die Leistung fest. Wenn das kompliziertere Modell nicht wesentlich besser abschneidet als das Basismodell, wird einfach das einfachere Modell verwendet. Einfach ist immer besser, denn es ist leichter zu verstehen.
Abstimmung der Hyperparameter
Wir können das Modell einmal trainieren und sehen dann die Leistung.
Wenn wir es verbessern wollen, können wir es erneut mit anderen Hyperparametern trainieren. Z.B. andere Lernrate, Anzahl der Epochen usw.
Wir können dies manuell oder automatisch tun.
Wenn dies automatisch geschieht, nennt man es „Hyperparameter-Tuning“.
Wir trainieren das Modell einfach 100-mal mit verschiedenen Hyperparametern und behalten nur das Modell mit der besten Leistung!
Die 2 wichtigsten Hyperparameter-Tuning-Algorithmen:
- Rasterbasiert
- Definition einer Reihe von Eingaben für jeden Hyperparameter und Training mit jeder möglichen Kombination aller Eingaben
- Erzielt stabile Ergebnisse
- Zufällige Suche
- Definition eines Bereichs „von/bis“ für jeden Hyperparameter und zufälliges Ausprobieren von Kombinationen innerhalb des definierten Bereichs.
- Die Ergebnisse können schwanken, von sehr schlecht bis sehr gut
Jetzt kennen Sie fast alle Schritte, um ein KI-Modell zu trainieren!

Schritt 5: Bewertung der Leistung des AI-Modells
In diesem Abschnitt wollen wir eine binäre Klassifizierungsaufgabe zur Erläuterung verwenden.
Stellen Sie sich ein KI-Modell vor, das entscheidet, ob ein Flugzeugtriebwerk ausgetauscht werden muss:
- Das Modell sagt voraus: Wechseln oder nicht wechseln
- Wir vergleichen dies mit den tatsächlichen Daten: Sollte sich ändern oder sollte sich nicht ändern
Bei der Bewertung von KI-Modellen, insbesondere bei Klassifizierungsaufgaben, verwenden wir ein Tool namens Konfusionsmatrix.
Sie ist sehr nützlich, um zu wissen, wie man ein KI-Modell trainiert.
Schauen wir uns das mal an:
- Die Konfusionsmatrix hilft uns, die Vorhersagen des Modells mit den tatsächlichen Ergebnissen zu vergleichen.
- Sie ist besonders nützlich für (binäre) Klassifizierungsaufgaben (z. B. Ja/Nein-Entscheidungen)
Hier ist eine einfache Konfusionsmatrix:

Was das bedeutet:
- Richtig Positiv (TP): Das Modell sagt, dass sich etwas ändert, und es sollte geändert werden.
- Richtig Negativ (TN): Das Modell sagt: „Nicht ändern“, und es sollte nicht geändert werden
- Falsch positiv (FP): Das Modell sagt, dass sich etwas ändert, aber es sollte nicht geändert werden.
- Falsch Negativ (FN): Das Modell sagt, es sollte nicht geändert werden, aber es sollte geändert werden
Anhand dieser Matrix können wir wichtige Kennzahlen berechnen:
- Genauigkeit: Wie viele Vorhersagen waren insgesamt richtig?
- (TP + TN) / (TP + TN + FP + FN)
- Rückruf: Wie viele von allen Motoren, die geändert werden sollten, haben wir erwischt?
- TP / (TP + FN)
- Genauigkeit: Wie viele der Motoren, bei denen wir gesagt haben, dass sie ausgetauscht werden sollten, mussten tatsächlich ausgetauscht werden?
- TP / (TP + FP)
- F1-Punktzahl: Ein Gleichgewicht zwischen Präzision und Recall
Lesen Sie mehr Theorie über Präzision und Rückruf auf Wikipedia.
Verstehen, wofür man optimieren muss
Sie wollen wissen, wie man ein KI-Modell trainiert?
Dann ist es wichtig zu verstehen, wofür Sie optimieren wollen.
Nehmen wir das Beispiel des Flugzeugtriebwerks.
Nehmen wir an, dass 5 % aller Flugzeugtriebwerke ausgetauscht werden sollen.
Das ist ein sehr unausgewogener Datensatz.
Wenn wir nur ein Modell hätten, das besagt, dass überhaupt kein Triebwerk ausgetauscht werden muss, dann läge die Genauigkeit bei 95 %.
Das ist großartig, hilft uns aber nicht weiter. Denn alle Triebwerke, die ausgetauscht werden sollten, werden nicht ausgetauscht. Und alle diese 5% Flugzeuge stürzen ab 😬
Im Falle der Flugzeuge sollten wir uns darauf konzentrieren, alle Triebwerke zu erfassen, die tatsächlich ausgetauscht werden müssen. Wir wollen also eine 100%ige Rückrufquote erreichen. 100 % Rückruf bedeutet, dass alle Triebwerke, die ausgetauscht werden sollten, auch als solche vorhergesagt werden -> keine falsch negativen Ergebnisse!
Nun könnten wir ein Modell haben, das nur sagt, dass alle Motoren ausgetauscht werden müssen.
Wir haben 100% Rückrufquote.
Aber es werden auch alle anderen Motoren ausgetauscht, die nicht ausgetauscht werden müssen.
Ich meine, dafür brauchen wir doch kein Modell, oder?
In diesem Fall sollten wir uns wahrscheinlich auf 100 % Wiedererkennung und gleichzeitig sehr hohe Genauigkeit konzentrieren. Oder gleichzeitig eine sehr hohe Genauigkeit, aber optimiert für die Wiederauffindbarkeit.
Nehmen wir ein anderes Beispiel: E-Mails.
Hier müssen wir klassifizieren, ob eine E-Mail Spam ist oder nicht.
Das Wichtigste ist, dass wir legitime E-Mails nicht in den Spam-Ordner verschieben.
Hier ist das Gegenteil der Fall, wir brauchen keinen sehr hohen Rückruf.
Aber wir müssen sicherstellen, dass alle E-Mails, die als Spam eingestuft werden, auch tatsächlich Spam sind.
Wir müssen für die Präzision optimieren!
Basierend auf den Daten, die Sie haben, müssen Sie für bestimmte Metriken optimieren und Ihre Modelle bewerten.

Iterieren und Verbessern des AI-Modells
Jetzt haben Sie die Ergebnisse.
Entweder eine hervorragende Leistung oder eine schlechte / durchschnittliche Leistung.
Was ist der nächste Schritt, um das KI-Modell zu trainieren?
Erstaunliche Leistung
Sie haben erstaunliche Ergebnisse: 99 % Genauigkeit und 99 % F1-Score.
Sie freuen sich über die großartige Arbeit, die Sie geleistet haben!
Endlich wissen Sie, wie Sie ein KI-Modell trainieren können.
Doch leider deutet dies in der Regel auf ein Datenleck oder eine Überanpassung hin.
Sie müssen Ihre gesamte Pipeline durchgehen und herausfinden, woher das Datenleck kommt.
Vielleicht markieren Sie in Ihrem Datensatz eine Transaktion als betrügerisch.
Aber Sie haben auch ein anderes Merkmal, das etwas Ähnliches aussagt. Z.B. wann ist der letzte Betrug passiert? (when_did_last_fraud_happen=2025-02-02).
Aber Sie codieren es falsch.
Dieses Merkmal entspricht dem Tag, an dem eine Transaktion stattgefunden hat (date_of_transaction=2025-02-02), und nicht dem Tag, an dem der letzte Betrug stattgefunden hat.
Sie entfernen aus dem Datensatz nur, dass es sich um eine betrügerische Transaktion handelt.
Sie behalten aber den Wert, der angibt, wann der letzte Betrug stattgefunden hat, nämlich am selben Tag wie die Transaktion! ⚠️
Das Modell sieht, dass die letzte betrügerische Transaktion am selben Tag wie die Transaktion stattfand.
Auf dieser Grundlage weiß das Modell, dass es sich um einen Betrug handelt.
Die Leistung liegt bei 99 %, weil Ihr Datensatz nicht die reale Welt widerspiegelt.
Sie wissen nicht, wie man ein KI-Modell trainiert.
Schlechte/durchschnittliche Leistung
Wenn die Leistung Ihres Modells nicht zufriedenstellend ist, müssen Sie zu den vorherigen Schritten zurückkehren und sehen, wo Sie sie verbessern können.
Das ist die Kunst des Trainings eines KI-Modells.
Es gibt eine Million Möglichkeiten, und man kann nicht alle ausprobieren.
Der KI-Ingenieur weiß, wo es am sinnvollsten ist, etwas zu tun.
Er weiß, wie man ein KI-Modell trainiert.
Beispiele für Verbesserungen:
- Verwenden Sie eine Kreuzvalidierung für die Erstellung von Datensätzen,
- Verwendung eines anderen Scalers bei der Vorverarbeitung der Daten. Verwenden Sie z. B. einen RobustScaler anstelle eines StandardScalers, um Ausreißer besser zu behandeln.
- Sie könnten ein anderes ML-Modell verwenden. Anfangs hielten Sie das Zeitreihenmodell für übertrieben. Jetzt denken Sie, dass es vielleicht sinnvoll ist.
- Vielleicht möchten Sie Ihre Hyperparameter-Abstimmung erweitern
- Vielleicht gehen Sie ganz an den Anfang, wenn Sie die Daten verstehen. Vielleicht haben Sie missverstanden, welche Merkmale wichtig sind und welche nicht, und Sie müssen das ändern.
- Lesen Sie noch einmal diesen Blog-Artikel über das Trainieren von KI-Modellen mit Geschäftsdaten.
Visualisierung der Daten
Visualisieren Sie bei jedem Schritt!
Sehen Sie sich Ihre Daten an!
Stellen Sie dar, welche Merkmale Ihres Datensatzes für Ihre Modelle am wichtigsten sind. Dies wird als „Merkmalsbedeutung“ bezeichnet. Dies kann Ihnen helfen, Datenlecks zu finden oder unnötige Merkmale zu identifizieren.

Vergleichen Sie die Leistung verschiedener Modelle mit einer Heatmap. Auf diese Weise sehen Sie auf einen Blick, welche Konfiguration und welche Modelle am besten funktionieren.
Abschließende Überlegungen zum Training von KI-Modellen für Unternehmen
Oft müssen Sie ein Modell nicht von Grund auf neu trainieren, um KI in Ihrem Unternehmen zu implementieren.
Aber manchmal muss man es doch.
Jetzt wissen Sie, wie Sie es angehen müssen 😉 .
Das waren die 5 beliebtesten Schritte zum Trainieren von KI-Modellen mit Unternehmensdaten.
Wir verschieben die Grenzen dessen, was mit KI möglich ist.
Bleiben Sie auf dem Laufenden mit Dentro, indem Sie unserem Newsletter folgen!
Wir verwenden „Wie man ein KI-Modell trainiert“ in diesem Artikel nicht, weil wir Idioten sind, sondern um die Keyword-Dichte und unser SEO-Ranking zu verbessern 😅. In diesem Sinne, jetzt wissen Sie, wie man ein KI-Modell trainiert!