Machine Learning

 

Machine Learning

Drei Dinge, die Sie wissen sollten

Machine Learning ist eine Datenanalysetechnik, mit der Computer eine Fähigkeit erwerben, die Menschen und Tiere von Natur aus haben: aus Erfahrung zu lernen. Machine-Learning-Algorithmen verwenden Berechnungsmethoden, um Informationen direkt aus Daten zu „lernen“, ohne eine bestimmte Gleichung als Modell zu nutzen. Mit wachsender Anzahl von Stichproben, die zum Lernen zur Verfügung stehen, steigern diese Algorithmen ihre Leistung adaptiv.

Wichtigkeit von Machine Learning

With the rise in big data, machine learning has become a key technique for solving problems in areas, such as:

Get started with machine learning. Learn machine learning from basic concepts to advanced algorithms. Download the ebook to learn more.

More Data, More Questions, Better Answers

Machine learning algorithms find natural patterns in data that generate insight and help you make better decisions and predictions. They are used every day to make critical decisions in medical diagnosis, stock trading, energy load forecasting, and more. For example, media sites rely on machine learning to sift through millions of options to give you song or movie recommendations. Retailers use it to gain insight into their customers’ purchasing behavior.

When Should You Use Machine Learning?

Consider using machine learning when you have a complex task or problem involving a large amount of data and lots of variables, but no existing formula or equation. For example, machine learning is a good option if you need to handle situations like these:

Mehr Daten, mehr Fragen, bessere Antworten

Machine-Learning-Algorithmen finden natürliche Muster in Daten, die Einblicke bieten und Ihnen helfen, zu besseren Entscheidungen und Prognosen zu gelangen. Sie werden täglich verwendet, um wichtige Entscheidungen bei medizinischen Diagnosen, im Börsenhandel, bei der Vorhersage von Stromlasten usw. zu treffen. Beispielsweise nutzen Medienwebsites Machine Learning, um Millionen von Optionen durchzusehen und Ihnen passende Songs oder Filme zu empfehlen. Einzelhändler verwenden es, um Einblicke in das Kaufverhalten ihrer Kunden zu gewinnen.

Warum sollten Sie Machine Learning verwenden?

Ziehen Sie die Verwendung von Machine Learning in Betracht, wenn Sie eine komplexe Aufgabe lösen möchten, die viele Daten und viele Variablen enthält, aber für die keine Formel oder Gleichung vorhanden ist. Machine Learning ist beispielsweise in den folgenden Situationen eine gute Wahl:

Manuell geschriebene Regeln und Gleichungen wären zu komplex – etwa bei der Gesichts- und Spracherkennung.

Die Regeln einer Aufgabe verändern sich ständig – etwa bei der Betrugserkennung anhand von Transaktionsaufzeichnungen.

Die Art der Daten verändert sich fortlaufend, und das Programm muss sich anpassen – etwa beim automatisierten Handel, bei der Vorhersage des Energiebedarfs und der Vorhersage von Einkaufstrends.

Funktionsweise von Machine Learning

Machine Learning verwendet zwei Arten von Techniken: überwachtes Lernen, mit dem ein Modell anhand bekannter Eingabe- und Ausgabedaten trainiert wird, sodass es zukünftige Ausgaben vorhersagen kann, und nicht überwachtes Lernen, mit dem verborgene Muster oder innere Strukturen in Eingabedaten gefunden werden.

Abbildung 1: Techniken des Machine Learning sind das überwachte und das nicht überwachte Lernen.

Überwachtes Lernen

Überwachtes Machine Learning erstellt ein Modell, das Prognosen anhand von Indizien abgibt, wenn zugleich Ungewissheiten vorliegen. Ein Algorithmus des überwachten Lernens verwendet eine bekannte Menge von Eingabedaten und bekannte Ausgänge für die Daten (die Ausgabe), um damit ein Modell zu trainieren, das fundierte Vorhersagen für den Ausgang von neuen Eingabedaten erzeugt. Verwenden Sie das überwachte Lernen, wenn Sie über bekannte Daten für die Ausgaben verfügen, die Sie vorhersagen möchten.

Beim überwachten Lernen werden Klassifikations- und Regressionstechniken verwendet, um prädiktive Modelle zu entwickeln.

Klassifikationstechniken sagen diskrete Ausgänge vorher – beispielsweise, ob eine E-Mail echt oder Spam ist oder ob ein Tumor Krebs oder gutartig ist. Klassifikationsmodelle klassifizieren Eingabedaten in Kategorien. Typische Anwendungen sind die medizinische Bildgebung, die Spracherkennung und das Credit Scoring.

Verwenden Sie die Klassifikation, wenn Ihre Daten mit Schlagwörtern versehen, in Kategorien eingeteilt oder in spezifische Gruppen oder Klassen aufgeteilt werden können. Beispielsweise verwenden Anwendungen für die Handschriftenerkennung eine Klassifikation, um Buchstaben und Ziffern zu erkennen. Bei der Bildverarbeitung und bei Computer Vision werden die Techniken der nicht überwachten Mustererkennung für die Objekterkennung und Bildsegmentierung verwendet.

Häufige Algorithmen für die Durchführung der Klassifikation sind Support Vector Machine (SVM), Entscheidungsbäume mit Boosting und Bagging, k-Nearest-Neighbor-Verfahren, naive Bayes-Klassifizierung, Diskriminanzanalyse, logistische Regression und neuronale Netze.

Regressionstechniken sagen kontinuierliche Ausgänge voraus – beispielsweise Temperaturänderungen oder Schwankungen des Energiebedarfs. Typische Anwendungen sind die Vorhersage von Stromlasten und der algorithmische Handel.

Verwenden Sie Regressionstechniken, wenn Sie mit einem Datenbereich arbeiten oder wenn der Ausgang eine reelle Zahl ist, wie eine Temperatur oder die Zeit bis zum Ausfall eines Geräts.

Häufige Regressionsalgorithmen sind das lineare Modell, das nicht lineare Modell, die Regularisierung, die schrittweise Regression, Entscheidungsbäume mit Boosting und Bagging, neuronale Netze und adaptives Neuro-Fuzzy-Learning.

Verwenden von überwachtem Lernen zur Vorhersage von Herzinfarkten

Angenommen, Ärzte möchten vorhersagen, ob jemand innerhalb eines Jahres einen Herzinfarkt erleiden wird. Sie verfügen über Daten zu früheren Patienten, und zwar zu Alter, Gewicht, Größe und Blutdruck. Sie wissen, ob diese früheren Patienten innerhalb eines Jahres einen Herzinfarkt hatten. Die Aufgabe besteht also darin, die vorhandenen Daten zu einem Modell zu kombinieren, das vorhersagen kann, ob eine neue Person innerhalb eines Jahres einen Herzinfarkt erleiden wird.

Nicht überwachtes Lernen

Nicht überwachtes Lernen findet verborgene Muster oder innere Strukturen in Daten. Es wird verwendet, um Rückschlüsse aus Datenmengen zu ziehen, die aus Eingabedaten ohne klassifizierte Ausgänge bestehen.

Clustering ist die häufigste Technik des nicht überwachten Lernens. Es wird für explorative Datenanalysen verwendet, um verborgene Muster oder Gruppierungen in Daten zu finden. Anwendungen für die Clusteranalyse sind beispielsweise Gensequenzanalyse, Marktforschung und Objekterkennung.

Wenn beispielsweise ein Mobilfunkanbieter die Standorte für Sendemasten optimieren möchte, kann er mit Machine Learning schätzen, wie viele Cluster von Personen diese Masten verwenden werden. Ein Mobiltelefon kann zu jedem Zeitpunkt nur mit einem Sendemast kommunizieren. Daher verwendet das Team Clustering-Algorithmen, um die beste Platzierung von Sendemasten zu finden, mit der der Signalempfang für Gruppen (oder Cluster) der Kunden optimiert wird.

Häufige Algorithmen für das Clustering sind k-Means und k-Medoids, hierarchisches Clustering, Gaußsche Mischverteilungsmodelle, Hidden-Markov-Modelle, selbstorganisierende Karten, Fuzzy-c-Means-Clustering und subtraktives Clustering.

Abbildung 2: Clustering findet verborgene Muster in Ihren Daten.

Auswahl des zu verwendenden Machine-Learning-Algorithmus

Die Auswahl des richtigen Algorithmus kann sehr schwierig erscheinen, denn es gibt Dutzende überwachter und nicht überwachter Machine-Learning-Algorithmen, und jeder verwendet einen anderen Lernansatz.

Es gibt keine beste Methode und keine, die immer geeignet ist. Die Auswahl des richtigen Algorithmus besteht zum Teil einfach aus Versuch und Irrtum – auch sehr erfahrene Datenwissenschaftler können nicht wissen, ob ein Algorithmus geeignet ist, ohne es ausprobiert zu haben. Die Auswahl eines Algorithmus hängt jedoch auch von Umfang und Art der Daten ab, mit denen Sie arbeiten, von den Einblicken, die Sie aus den Daten ziehen möchten, und von der geplanten Verwendung dieser Einblicke.

Abbildung 3: Machine-Learning–Techniken.

Es folgen einige Richtlinien für die Auswahl zwischen überwachtem und nicht überwachtem Machine Learning:

  • Wählen Sie überwachtes Lernen aus, wenn Sie ein Modell trainieren möchten, damit es eine Prognose abgibt – beispielsweise den zukünftigen Wert einer kontinuierlichen Variablen, wie eine Temperatur oder einen Aktienkurs –, oder eine Klassifikation – beispielsweise die Identifizierung von Automarken im Videomaterial einer Webcam.
  • Wählen Sie nicht überwachtes Lernen aus, wenn Sie Ihre Daten untersuchen und ein Modell trainieren möchten, damit es eine gute interne Darstellung findet, etwa indem es Daten in Cluster aufteilt.

Machine Learning mit MATLAB

How can you harness the power of machine learning to use data to make better decisions? MATLAB makes machine learning easy. With tools and functions for handling big data, as well as apps to make machine learning accessible, MATLAB is an ideal environment for applying machine learning to your data analytics.

With MATLAB, engineers and data scientists have immediate access to prebuilt functions, extensive toolboxes, and specialized apps for classification, regression, and clustering.

MATLAB lets you:

  • Compare approaches such as logistic regression, classification trees, support vector machines, ensemble methods, and deep learning.
  • Use model refinement and reduction techniques to create an accurate model that best captures the predictive power of your data.
  • Integrate machine learning models into enterprise systems, clusters, and clouds, and target models to real-time embedded hardware.
  • Perform automatic code generation for embedded sensor analytics.
  • Support integrated workflows from data analytics to deployment.
Mit der Classification Learner-App können Sie mit Methoden des überwachten Machine Learning Modelle trainieren, die Daten klassifizieren.

Interessante Anwendungen des Machine Learning

Erstellen von Algorithmen, die Kunstwerke analysieren können

Forscher im Art and Artificial Intelligence Laboratory der Rutgers University wollten herausfinden, ob ein Computeralgorithmus Gemälde ebenso leicht nach Stil, Genre und Künstler klassifizieren kann wie ein Mensch. Sie identifizierten zuerst visuelle Merkmale für die stilistische Klassifikation eines Gemäldes. Die Algorithmen, die sie entwickelten, klassifizierten die Stile der Gemälde in der Datenbank mit einer Genauigkeit von 60 %. Damit hatten sie eine höhere Leistung als eine durchschnittliche, nicht fachkundige Person.

Die Hypothese der Forscher war, dass visuelle Merkmale, die für die Klassifizierung des Stils (Problemstellung mit überwachtem Lernen) nützlich sind, auch dazu verwendet werden können, künstlerische Einflüsse zu bestimmen (Problemstellung ohne überwachtes Lernen).

Sie verwendeten Klassifikationsalgorithmen, die durch Bilder auf Google trainiert wurden, bestimmte Objekte zu erkennen. Sie testeten die Algorithmen an über 1.700 Gemälden von 66 unterschiedlichen Künstlern über eine Zeitspanne von 550 Jahren. Der Algorithmus ermittelte auf Anhieb miteinander in Verbindung stehende Werke, wie den Einfluss von Diego Velázquez’ Papstporträt „Innozenz X“ auf Francis Bacons „Study After Velázquez’s Portrait of Pope Innocent X“ (Studie nach Velázquez’ Porträt von Papst Innozenz X).

Optimierung des Energieverbrauchs von Heiz- und Klimageräten in großen Gebäuden

Die Heizungs-, Lüftungs-, Klimaanlagensysteme (HLK) in Bürogebäuden, Krankenhäusern und anderen großen Gewerbebauten sind oft ineffizient, da Wetterveränderungen, schwankende Energiekosten oder die thermischen Eigenschaften des Gebäudes nicht berücksichtigt werden.

Die cloud-basierte Softwareplattform von BuildingIQ löst dieses Problem. Die Plattform verwendet fortschrittliche Algorithmen und Machine-Learning-Methoden, die ununterbrochen Gigabytes an Informationen von Stromzählern, Thermometern und HLK-Drucksensoren sowie Wetter- und Energiekostendaten verarbeiten. Insbesondere wird Machine Learning verwendet, um die Daten zu segmentieren und den relativen Beitrag von Gas, elektrischem Strom, Dampf- und Solarenergie zu Aufheiz- und Abkühlprozessen zu ermitteln. Die Plattform von BuildingIQ verringert bei Normalbetrieb den HLK-Energieverbrauch in großen Gewerbebauten um 10 bis 25 %.

Erkennen von Autozusammenstößen bei niedriger Geschwindigkeit

Mit über 8 Millionen Mitgliedern ist der Royal Automobile Club (RAC) einer der größten Automobilclubs in Großbritannien. Er bietet Pannenhilfe, Versicherungen und andere Services für private und berufliche Autofahrer.

Um schnelle Reaktionen auf Pannen zu ermöglichen, Unfälle zu reduzieren und Versicherungskosten zu senken, entwickelte der RAC ein Crash-Sensorsystem zum Einbau in Fahrzeuge. Es nutzt fortschrittliche Machine-Learning-Algorithmen, um Zusammenstöße bei niedriger Geschwindigkeit zu erkennen und sie von häufigeren Vorkommnissen beim Fahren zu unterscheiden, etwa den Auswirkungen von Bodenschwellen oder Schlaglöchern. Unabhängige Tests haben gezeigt, dass das System des RAC Zusammenstöße mit einer Genauigkeit von 92 % erkennt.

Weitere Informationen über Machine Learning

Möchten Sie mehr erfahren? Sehen Sie sich zuerst diese Ressourcen zum Machine Learning an.

In diesem Webinar lernen Sie die ersten Schritte bei der Verwendung von Machine-Learning-Tools kennen, um in Ihren Datensätzen Muster zu erkennen und Prognosemodelle zu erstellen.
Learn how to apply, evaluate, fine-tune and deploy machine learning techniques with MATLAB.
Erste Schritte mit Machine Learning Lernen Sie alles über Machine Learning, von grundlegenden Konzepten bis hin zu fortschrittlichen Algorithmen. Laden Sie das E-Book herunter, um mehr zu erfahren.