Cos'è il Machine Learning?

Michael Chen | Content Strategist | 25 novembre 2024

Il machine learning è diventato un termine familiare negli ultimi anni, quando il concetto è passato dalla fantascienza a essere un aspetto chiave del modo in cui le aziende e le organizzazioni elaborano le informazioni. Con il ritmo della creazione dei dati che continua a crescere in modo esponenziale, gli strumenti di machine learning sono fondamentali per le organizzazioni che cercano di scoprire modelli, individuare le tendenze e tracciare il percorso più redditizio da seguire.

Quanto è comune il machine learning? Se hai fatto clic su una raccomandazione da un sito Web di e-commerce o da una piattaforma di streaming, sei stato informato di un potenziale uso improprio di una carta di credito o di un software di trascrizione utilizzato, hai beneficiato del machine learning. Viene utilizzato in finance, sanità, marketing, retail e molti altri settori per estrarre insight preziosi dai dati e automatizzare i processi.

Cos'è il Machine Learning?

Il Machine Learning (ML) è un sottoinsieme dell'intelligenza artificiale che si occupa di creare sistemi che imparano e migliorano man mano che consumano più dati. Intelligenza artificiale è un termine generico e si riferisce a sistemi o macchine che imitano l'intelligenza umana. I termini apprendimento automatico e intelligenza artificiale vengono spesso utilizzati insieme e in modo interscambiabile, ma non hanno lo stesso significato.

In breve, tutto il machine learning è intelligenza artificiale, ma non tutta l'intelligenza artificiale è machine learning.

Concetti chiave

  • Il machine learning è un sottoinsieme dell'AI.
  • I quattro tipi più comuni di machine learning sono supervisionato, non supervisionato, semi-supervisionato e con rinforzo.
  • I tipi più diffusi di algoritmi di machine learning includono reti neurali, alberi decisionali, clustering e foreste casuali.
  • I casi d'uso comuni di machine learning nell'azienda includono l'identificazione e la classificazione degli oggetti, il rilevamento delle anomalie, l'elaborazione dei documenti e l'analisi predittiva.

Che cos'è l'apprendimento automatico

Il machine learning è una tecnica che scopre relazioni precedentemente sconosciute nei dati, cercando set di dati potenzialmente molto grandi per scoprire modelli e tendenze che vanno oltre la semplice analisi statistica. Il machine learning utilizza algoritmi sofisticati addestrati per identificare i pattern nei dati, creando modelli. Questi modelli possono essere utilizzati per fare previsioni e categorizzare i dati.

Si noti che un algoritmo non è uguale a un modello. Un algoritmo è un insieme di regole e procedure utilizzate per risolvere un problema specifico o eseguire un compito particolare, mentre un modello è l'output o il risultato dell'applicazione di un algoritmo a un data set.

Prima dell'addestramento, hai un algoritmo. Dopo l'addestramento, hai un modello.

Ad esempio, il machine learning è ampiamente utilizzato nel settore sanitario per attività come l'analisi dell'imaging medico, l'analisi predittiva e la diagnosi delle malattie. I modelli di machine learning sono ideali per analizzare le immagini mediche, come le scansioni MRI, i raggi X e le scansioni TC, per identificare modelli e rilevare anomalie che potrebbero non essere visibili all'occhio umano o che un diagnostico oberato di lavoro potrebbe non notare. I sistemi di machine learning possono anche analizzare i sintomi, le informazioni genetiche e altri dati dei pazienti per suggerire test per condizioni come cancro, diabete e malattie cardiache.

Le caratteristiche principali del machine learning sono

  • Ricerca automatica dei modelli
  • Previsione dei risultati probabili
  • Creazione di informazioni utilizzabili
  • Capacità di analizzare grandi volumi di dati

Tipi di machine learning

Esistono quattro tipi principali di machine learning. Ognuno ha i propri punti di forza e i propri limiti ed è importante scegliere l'approccio giusto per il compito specifico.

  • Il machine learning supervisionato è il tipo più comune. Qui, i dati etichettati insegnano all'algoritmo quali conclusioni dovrebbe trarre. Esattamente come un bambino impara a identificare i frutti memorizzandoli in un libro illustrato, nel machine learning supervisionato l'algoritmo apprende da un set di dati già etichettato. Un esempio di machine learning supervisionato è un filtro e-mail di spam, in cui l'algoritmo viene addestrato su un set di dati con etichetta in cui ogni e-mail viene contrassegnata come spam o non spam. Il modello impara da questi esempi etichettati e può quindi prevedere se le nuove e-mail in arrivo sono probabilmente spam o non basate sui modelli identificati. Questo tipo di apprendimento supervisionato richiede che un esperto umano fornisca le risposte corrette etichettando i dati in modo che l'algoritmo possa apprendere e fare previsioni accurate in futuro.

    Si noti che l'obiettivo qui non è quello di addestrare utilizzando dati incontaminati. Vuoi imitare ciò che il sistema vedrà nel mondo reale: alcuni spam sono facili da individuare, ma altri esempi sono più complessi o borderline. Dati eccessivamente puliti portano ad un sovraadattamento, il che significa che il modello identificherà solo altri campioni incontaminati.
  • Il machine learning non supervisionato utilizza un approccio più indipendente, in cui un computer impara a identificare processi e schemi complessi senza affidarsi a dati precedentemente etichettati. Il machine learning non supervisionato non si limita semplicemente all'addestramento su dati privi di etichette; implica anche l'assenza di un output specifico e definito, come la probabilità che un'email sia considerata spam.

    Il machine learning non supervisionato tende a individuare raggruppamenti di dati simili, creando cluster. Una volta addestrato, il modello può identificare modelli simili e inserire tali dati nel gruppo appropriato. Un uso comune del machine learning non supervisionato sono i motori di raccomandazione, che vengono utilizzati nelle applicazioni consumer per fornire suggerimenti del tipo "i clienti che hanno acquistato questo articolo, hanno acquistato anche questo". Quando vengono trovati modelli diversi, l'algoritmo può identificarli come anomalie, il che è utile nel rilevamento delle frodi.
  • Il machine learning semi-supervisionato risolve il problema di non avere a disposizione dati con etichetta sufficienti per addestrare completamente un modello. Ad esempio, potresti avere set di dati di addestramento di grandi dimensioni, ma non voler sostenere i tempi e i costi di etichettatura dell'intero set. Utilizzando una combinazione di metodi supervisionati e non supervisionati, è spesso possibile ottenere un modello completamente addestrato. Il processo di addestramento inizia con l'apprendimento supervisionato, utilizzando i dati etichettati per ottenere i risultati iniziali e stabilire le linee guida per l'algoritmo. Quando i dati con etichetta sono esauriti, al modello semi-addestrato vengono assegnati i set di dati senza etichetta. Utilizza l'addestramento di cui dispone ed esamina i dati non etichettati, con l'obiettivo di aggiungerli al set di dati con etichetta. Se il modello è in grado di trovare un'etichetta appropriata per un campione con certezza elevata, tale campione viene aggiunto ai dati con etichetta. Il processo di apprendimento inizia di nuovo, ma ora con un set più ampio di campioni etichettati. Iterando, più campioni vengono etichettati con quelle che vengono spesso chiamate pseudo-etichette e il modello può essere ulteriormente perfezionato.

    Il machine learning di rinforzo, come il machine learning non supervisionato, utilizza data set non etichettati e consente agli algoritmi di valutare i dati. Tuttavia, l'apprendimento del rinforzo differisce in quanto sta lavorando verso un obiettivo prefissato piuttosto che esplorare i dati per scoprire quali modelli potrebbero esistere. Con un obiettivo in mente, l'algoritmo procede in un processo di prova e di errore. Ogni mossa riceve un feedback positivo, negativo o neutro, che l'algoritmo utilizza per affinare il proprio processo decisionale generale. Gli algoritmi di apprendimento di rinforzo possono lavorare a livello macro verso l'obiettivo del progetto, anche se ciò significa affrontare conseguenze negative a breve termine. In questo modo, l'apprendimento di rinforzo gestisce situazioni più complesse e dinamiche rispetto ad altri metodi perché consente al contesto dell'obiettivo del progetto di influenzare il rischio nelle scelte. Insegnare a un computer a giocare a scacchi è un buon esempio. L'obiettivo generale è vincere la partita, ma ciò potrebbe richiedere il sacrificio di pezzi man mano che il gioco continua.

Qual è l'approccio più adatto alle tue esigenze? La scelta di un approccio supervisionato o di uno degli altri tre metodi di solito dipende dalla struttura e dal volume dei dati, dal budget e dalle ore che possono essere dedicate all'addestramento e dal caso d'uso a cui si desidera applicare il modello finale. Ignorare un suggerimento riguardo a una camicetta da abbinare a una gonna potrebbe sembrare irrilevante. Non individuare un tumore, meno.

Come funziona il Machine Learning

Come indica il suo nome, il machine learning funziona creando modelli statistici basati su computer che vengono perfezionati per un determinato scopo valutando i dati di addestramento, piuttosto che con l'approccio classico in cui i programmatori sviluppano un algoritmo statico che tenta di risolvere un problema. Quando i data set vengono inseriti nel modello ML, l'output risultante viene giudicato in base all'accuratezza, consentendo ai data scientist di regolare il modello attraverso una serie di variabili consolidate, chiamate iperparametri, e variabili regolate algoritmicamente, chiamate parametri di apprendimento.

Poiché l'algoritmo si regola mentre valuta i dati di addestramento, il processo di esposizione e calcolo attorno a nuovi dati addestra l'algoritmo a diventare migliore in ciò che fa. L'algoritmo è la parte computazionale del progetto, mentre il termine "modello" è un algoritmo addestrato che può essere utilizzato per casi d'uso di parole reali.

L'ambito, le risorse e gli obiettivi dei progetti di Machine Learning determineranno il percorso più appropriato, ma la maggior parte coinvolgerà una serie di passi.

1. Raccolta e compilazione dei dati

I modelli ML di formazione richiedono molti dati di alta qualità. Trovarli a volte è difficile ed etichettarli, se necessario, può essere molto impegnativo. Dopo aver identificato potenziali origini dati, valutale per determinare la qualità complessiva e l'allineamento con le risorse esistenti di integrazione/repository dei dati del progetto. Queste fonti costituiscono la base di addestramento di un progetto di machine learning.

2. Selezionare un algoritmo appropriato per generare il modello desiderato

A seconda che il progetto preveda l'uso di apprendimento supervisionato, non supervisionato o apprendimento semi-supervisionato, i data scientist possono scegliere gli algoritmi più adatti. Ad esempio, un progetto più semplice con un data set con etichetta può utilizzare un albero decisionale, mentre il clustering, ovvero la divisione di campioni di dati in gruppi di oggetti simili, richiede più risorse di calcolo poiché l'algoritmo funziona senza supervisione per determinare il percorso migliore per un obiettivo.

3. Perfezionare e preparare i dati per l'analisi

È probabile che i dati in entrata non siano pronti per l'uso. La preparazione dei dati pulisce i data set per garantire che tutti i record possano essere facilmente inclusi durante l'addestramento. La preparazione include una serie di task di trasformazione, ad esempio la definizione di formati di data e ora, l'unione o la separazione delle colonne in base alle esigenze e l'impostazione di altri parametri di formato, ad esempio cifre significative accettabili nei dati dei numeri reali. Altri task chiave includono la pulizia dei record duplicati, anche denominati duplicazione dei dati, nonché l'identificazione ed eventualmente la rimozione dei valori anomali.

4. Educare il modello attraverso l'addestramento

Dopo aver selezionato il modello finale desiderato, viene avviato il processo di addestramento. Durante l'addestramento, un set di dati curato, etichettato o non etichettato, viene fornito all'algoritmo. Nelle esecuzioni iniziali, i risultati potrebbero non essere ottimi, ma i data scientist si modificheranno in base alle esigenze per perfezionare le prestazioni e aumentare la precisione. Quindi all'algoritmo vengono mostrati nuovamente i dati, di solito in quantità maggiori per sintonizzarli in modo più preciso. Più dati l'algoritmo vede e più il modello finale dovrebbe migliorare nel fornire i risultati desiderati.

5. Valuta le prestazioni e l'accuratezza del modello

Dopo che il modello è stato addestrato fino a raggiungere una precisione sufficiente, è il momento di fornire dati precedentemente invisibili per testare le sue prestazioni. Spesso, i dati utilizzati per i test sono un sottoinsieme dei dati di addestramento messi da parte per l'uso dopo l'addestramento iniziale.

6. Ottimizza e migliora i parametri del modello

Il modello ora è molto probabilmente vicino alla distribuzione. Le esecuzioni con set di dati di test devono produrre risultati altamente accurati. I miglioramenti avvengono attraverso una formazione aggiuntiva con dati specifici, spesso unici per le operazioni di un'azienda, per integrare i dati generalizzati utilizzati nella formazione originale.

7. Avvia il modello

Con i risultati ottimizzati, il modello è ora pronto ad affrontare i dati non visti in precedenza nell'uso normale della produzione. Quando il modello è attivo, i team di progetto raccoglieranno dati sulle prestazioni del modello in scenari reali. Ciò può essere fatto monitorando le metriche chiave delle prestazioni, come l'accuratezza, la correttezza complessiva delle previsioni del modello e il rapporto tra osservazioni positive correttamente previste. Considera anche in che modo le previsioni del modello influenzano i risultati aziendali sul campo: stanno generando valore, sia nell'aumento delle vendite di camicette che grazie a una diagnostica migliore?

Effettuare regolari audit e revisioni delle prestazioni del modello può aiutare a identificare problemi o distorsioni che possono essere sorti dopo la distribuzione e sono essenziali per garantire che il modello funzioni in modo efficace e soddisfi gli obiettivi desiderati.

Come funziona il Machine Learning

Algoritmi di Machine Learning

Gli algoritmi sono la parte computazionale di un progetto di machine learning. Una volta addestrati, gli algoritmi producono modelli con una probabilità statistica di rispondere a una domanda o raggiungere un obiettivo. L'obiettivo potrebbe essere quello di trovare alcune caratteristiche nelle immagini, come "identificare tutti i gatti", o potrebbe essere quello di individuare anomalie nei dati che potrebbero indicare frodi, spam o un problema di manutenzione di una macchina. Altri algoritmi potrebbero tentare di fare previsioni, ad esempio quali articoli di abbigliamento potrebbero piacere a un cliente in base a ciò che ha al momento nel carrello.

Alcuni degli algoritmi più comuni utilizzati nel machine learning sono i seguenti:

  • Reti neurali: il cervello umano funziona creando reti di nodi che svolgono funzioni diverse come l'elaborazione di immagini dai nostri occhi, l'archiviazione di ricordi e il controllo dei nostri muscoli. Le reti neurali basate su computer sono modellate su questa architettura cerebrale, creando livelli di nodi che pesano le relazioni tra i dati che hanno analizzato e i dati nei nodi adiacenti. Lavorando come rete, questi nodi possono determinare le caratteristiche dei dati, come gli elementi all'interno di un'immagine.
  • Regressione lineare: gli algoritmi di regressione lineare acquisiscono punti dati e creano un'equazione matematica per una linea che supporta al meglio i risultati previsti. Questa è a volte conosciuta come la "line of best fit". La regressione lineare funziona modificando le variabili nell'equazione al fine di minimizzare gli errori nelle previsioni. Un esempio di regressione lineare è quello presente nella cura pediatrica, dove diversi punti di dati possono prevedere l'altezza e il peso di un bambino sulla base di dati storici. Allo stesso modo, il BMI è una regressione lineare che tenta di correlare l'altezza e il peso al grasso corporeo complessivo. Poiché l'algoritmo utilizza una linea semplice per le previsioni, i tassi di errore possono essere elevati. Ad esempio, un BMI di 30 indica l'obesità. Questo è spesso vero per il grande pubblico, ma sicuramente non per gli atleti di forza come i linebacker NFL.
  • Regressione logistica: meglio utilizzata per i risultati binari, la regressione logistica è come la regressione lineare, ma con considerazioni speciali ai limiti dei possibili intervalli di dati. Un esempio di regressione logistica include l'analisi pass/fail sulla probabilità di convertire un potenziale cliente in un cliente pagante. La regressione logistica è spesso utilizzata nelle diagnosi mediche: ad esempio, le concentrazioni nel plasma di glucosio in un certo intervallo sono utilizzate come un forte indicatore del diabete. La regressione logistica può anche essere utilizzata per prevedere se un'e-mail è spam o meno o se una transazione con carta di credito è fraudolenta.
  • Clustering: il cluster è una forma di apprendimento non supervisionato che espone un algoritmo a set di dati non etichettati in cui i dati possono rientrare in gruppi o cluster distinti. Quando l'algoritmo valuta i dati di addestramento, cerca i pattern, sovrappone i dettagli tra i dati e crea gruppi. Diciamo che l'algoritmo sta esaminando il valore nutrizionale di un'ampia varietà di frutti. Potrebbe scoprire che gli agrumi formano un gruppo, le bacche ne formano un altro e i meloni ne formano un terzo. Ciò consente di comprendere più facilmente cosa rende unico ogni cluster. Il clustering è particolarmente utile per qualsiasi tipo di progetto di categorizzazione, ad esempio la segmentazione del mercato.
  • Alberi decisionali: gli alberi decisionali utilizzano l'apprendimento supervisionato e le progressioni di base if-then per effettuare previsioni. A seconda della complessità del progetto, gli alberi decisionali possono essere ideali come algoritmi a basso uso di risorse che producono risultati semplici. Ad esempio, se un'università desiderasse stabilire quali studenti possano essere esentati dal corso di inglese per il primo anno, potrebbe utilizzare un albero decisionale che inizialmente si chiede se lo studente ha frequentato quattro anni di inglese al liceo e, in caso affermativo, se ha conseguito una media di voti pari almeno a 3.6 in quella materia. Un altro percorso potrebbe semplicemente chiedere se lo studente ha ottenuto un punteggio migliore di una certa soglia nelle sezioni SAT di lettura, scrittura e lingua.
  • Foreste casuali: da soli, gli alberi decisionali presentano limitazioni a causa dei flussi di lavoro rigidi intrinseci e dell'esigenza di rispondere a tutte le domande di valutazione. Nel nostro esempio precedente di albero decisionale, il college potrebbe richiedere che entrambe le condizioni siano vere, anche se soddisfarne solo una potrebbe essere sufficiente. E potrebbero esserci altri fattori da considerare, come il risultato raggiunto dallo studente nella prova di ammissione. Se tutti e tre i fattori fossero necessari, il college avrebbe il problema di richiedere un "overfit" all'albero decisionale. Gli studenti che hanno ottenuto buoni risultati in tutti e tre i criteri avranno probabilmente la possibilità di non dover sostenere il corso di Inglese 101. Tuttavia, anche coloro che sarebbero comunque idonei saranno tenuti a seguire il corso. Le foreste casuali riuniscono raccolte di alberi decisionali che pesano cumulativamente i risultati per presentare una prospettiva più ampia. Con le foreste casuali, i progetti possono continuare a sfruttare le meccaniche fondamentali degli alberi decisionali, tenendo conto delle relazioni sfumate tra i punti dati pertinenti. Il nostro college potrebbe suddividere questi tre criteri in alberi decisionali distinti e successivamente applicare dei pesi per determinare chi può essere esonerato dall'inglese 101, basandosi forse sul fatto che ottenere buoni risultati in inglese al liceo sia l'indicatore più predittivo, mentre la performance sull'argomento del saggio risulta essere il meno significativo.

Oltre le reti neurali

Il machine learning utilizza una vasta gamma di algoritmi. Mentre quelli discussi sopra regnano supremi in termini di popolarità, ecco cinque algoritmi meno comuni ma utili.

Gradient boosting Crea modelli in sequenza concentrandosi sugli errori precedenti nella sequenza. Utile per il rilevamento di frodi e spam.
K-nearest neighbors (KNN) Un modello semplice ma efficace che classifica i datapoint in base alle etichette dei vicini più vicini nei dati di addestramento.
Principal component analysis (PCA) Riduce la dimensionalità dei dati identificando le caratteristiche più significative. È utile per la visualizzazione e la compressione dei dati, ad esempio per il rilevamento delle anomalie.
Q-learning Impiegati e agenti che apprendono attraverso tentativi ed errori, ricevendo ricompense per le azioni desiderate e sanzioni per aver fatto la mossa sbagliata.
Support vector machines (SVM) Crea un iperpiano per separare in modo efficace i datapoint appartenenti a classi diverse, ad esempio la classificazione delle immagini.

Vantaggi del Machine Learning

Il machine learning consente alle organizzazioni di estrarre insight dai propri dati che potrebbero non essere in grado di trovare in altro modo. Alcuni dei vantaggi più comuni derivanti dall'integrazione del machine learning nei processi includono i seguenti:

  • Semplificare il processo decisionale e l'analisi predittiva: le decisioni basate sui dati iniziano con l'analisi dei dati. Si tratta di un'affermazione ovvia, ma se eseguita manualmente, il processo di analisi richiede tempo e risorse e potrebbe non fornire insight abbastanza ricchi da giustificare il costo. Il machine learning può esaminare grandi volumi di dati per identificare tendenze e modelli in modo che gli utenti possano concentrarsi su query e risultati utilizzabili anziché ottimizzare l'elaborazione manuale dei dati. A seconda dello strumento di analisi, il machine learning può generare previsioni e identificare insight difficili da trovare nei dati, consentendo una maggiore profondità di analisi e più valore per l'organizzazione.
  • Migliorare l'efficienza e automatizzare i task: il machine learning è alla base di molte delle tecnologie che rendono i lavoratori più efficienti. Molte attività ripetitive a bassa cognizione, tra cui il controllo ortografico, la digitalizzazione e la classificazione dei documenti, sono ora eseguite dai computer, grazie al machine learning.

    Il machine learning eccelle anche nell'analisi dei dati in-the-moment, estremamente difficile per gli esseri umani. Questa transazione è fraudolenta o quella e-mail è una truffa di phishing? I sistemi di machine learning possono spesso determinare con precisione la risposta in pochi secondi e adottare automaticamente le misure appropriate. Combinando le tecnologie ML, le previsioni possono essere fatte da dati accompagnati da spiegazioni dei fattori che hanno influenzato la previsione, aiutando i dirigenti a tracciare i percorsi migliori per le loro organizzazioni.
  • Personalizzazione e innovazione nei servizi: il machine learning ha aperto una nuova porta alle customer experience attraverso la personalizzazione. La cronologia degli acquisti, la cronologia di navigazione, i dati demografici e le informazioni aggiuntive possono essere utilizzate per creare un singolo profilo cliente, che può quindi essere referenziato in modo incrociato rispetto a profili simili per fare previsioni sugli interessi dei clienti. Ciò consente offerte di motori di suggerimenti, sconti generati automaticamente e altri tipi di coinvolgimento personalizzato per fidelizzare i clienti.

    Utilizzando la nomenclatura qui discussa: gli alberi decisionali possono aiutare a classificare i clienti. Forse a un cliente piace la moda vintage e di seconda mano mentre a un altro piacciono i capi di design innovativi. Il raggruppamento di ogni cliente con clienti simili può aiutare a identificare i prodotti su cui probabilmente faranno clic o a capire se sono altamente motivati dalle vendite. Il machine learning può quindi prevedere le migliori offerte per ogni cliente considerando i cluster in cui rientrano.

Sfide del machine learning

I progetti di machine learning sono efficaci solo quanto il sistema e le risorse con cui sono costruiti. Ciò evidenzia la necessità di investire in una corretta pianificazione e preparazione.

Di seguito sono riportate alcune delle sfide più comuni che i progetti di machine learning devono affrontare:

  • Qualità dei dati: l'adagio "garbage in, garbage out" si applica al machine learning: la qualità dei dati è fondamentale, sia durante la fase di formazione che in produzione. Dati di alta qualità possono portare a risultati più accurati forniti in modo tempestivo ed efficiente; dati di bassa qualità possono creare imprecisioni e distorsioni nei modelli risultanti. Da notare che "qualità" può significare cose diverse per progetti diversi. Per i sistemi di riconoscimento delle immagini di formazione, i dati dovrebbero rappresentare ciò che il modello vedrà nel mondo reale. Ciò include i soggetti nell'ombra, leggermente fuori fuoco e senza guardare direttamente nella fotocamera. Per scopi di formazione, più dati assomigliano a ciò che il sistema vedrà in produzione, meglio è.

    A tal fine, le organizzazioni dovrebbero esaminare le origini dei dati, trasformare i set di dati per formati coerenti e compatibili, eseguire procedure di pulizia e deduplicazione, formare gli utenti su processi e protocolli e integrare strumenti per valutare la qualità e l'adattamento.
  • Distorsione: i dati possono essere puliti, ma sono esenti da pregiudizi? Come caso ovvio, supponiamo che tu voglia addestrare un sistema di machine learning per rilevare i cani nelle immagini e hai un set consolidato di dati solo di Labrador e foto di barboncini. Dopo l'addestramento, il modello dimostra un'eccellente capacità di rilevare questi cani; si potrebbe affermare che sia incline a farlo. Ma quando viene mostrata una foto di un bulldog, dice che non riesce a trovare un cane. Ovviamente no, non è stato addestrato per questo.

    La creazione del giusto set di dati di addestramento è uno degli aspetti più complessi e costosi della creazione di strumenti di machine learning che funzionano nel modo desiderato. La difficoltà di trovare determinati tipi di dati può spesso generare una fonte non intenzionale di pregiudizi. Ad esempio, il mastino tibetano è una razza rara, ma i cani sembrano un Terranova marrone e arancione. Quindi, se esistono campioni di dati insufficienti del mastino tibetano, non saremo troppo sorpresi se un modello di ML lo identifica come un Terranova.
  • Sicurezza dei dati: nonostante i numerosi vantaggi offerti, il machine learning può introdurre una serie di problemi di sicurezza. I dati utilizzati nell'analisi ML possono contenere informazioni sensibili o proprietarie non destinate al consumo pubblico. Analogamente, i dati possono diventare l'obiettivo di un attacco informatico finalizzato a compromettere il modello e a inserire disinformazione nei risultati. I passi di preparazione dei dati possono esporre e risolvere le vulnerabilità della sicurezza, in particolare quando i data set attraversano i processi di esportazione o importazione tra i sistemi. Per contribuire a mitigare i problemi di sicurezza, le aziende devono utilizzare una serie di politiche, procedure e controlli di sicurezza, compresa la formazione pratica del personale.
  • Privacy dei dati: garantire che i dati sensibili non vengano divulgati è uno sforzo continuo. L'anonimizzazione dei dati è una pratica emergente, ma potrebbe non essere sempre disponibile o sufficiente. Ad esempio, un'azienda desidera offrire un servizio che consenta ai propri clienti aziendali di saperne di più sui propri consumatori finali in base ai dati raccolti. Questo tipo di informazioni dovrebbe essere protetto e utilizzato in conformità con i requisiti legali e le aziende dovrebbero considerare attentamente nuovi vettori di minacce che potrebbero tentare di compromettere i dati attraverso un sistema ML.

Casi d'uso di machine learning

Il machine learning può offrire vantaggi significativi a quasi tutti i settori e a tutti i reparti all'interno di un'organizzazione. Se i numeri vengono elaborati e i dati esistono, il machine learning offre un modo per aumentare l'efficienza e derivare nuovi tipi di coinvolgimento. I casi d'uso comuni del machine learning in tutti i settori includono i seguenti:

  • Vendita al dettaglio: per i rivenditori, il machine learning può aiutare le operations, le vendite e altro ancora. A livello operativo, il machine learning può analizzare i dati della supply chain per ottimizzare la gestione dell'inventario e identificare i possibili ritardi in anticipo. Per aumentare le vendite, il machine learning può esaminare la cronologia di ricerca e navigazione di un cliente insieme ai dati demografici per creare un profilo che funga da base per un ulteriore coinvolgimento.
  • Media in streaming: come i retailer, sia gli streamer audio che video possono creare profili cliente in base al coinvolgimento e alla cronologia di navigazione di un utente e ai dati demografici. Questo profilo può quindi alimentare i motori di raccomandazione che aiutano con la scoperta e l'ulteriore coinvolgimento.
  • Finance: uno degli usi più potenti ma semplici del machine learning è il rilevamento delle frodi nel settore finanziario. Grazie al machine learning, gli algoritmi possono identificare il comportamento generale degli account, quindi iniziare a segnalare comportamenti anomali per potenziali indagini sulle frodi.
  • Sanità: il settore sanitario è pronto per l'uso del machine learning in quasi tutti gli aspetti delle operations. I profili dei pazienti attraverso cartelle cliniche elettroniche possono identificare possibili problemi in anticipo sulla base di modelli rispetto a dati demografici simili. I dati provenienti dai dispositivi Internet of Things, come un dispenser di farmaci intelligente, possono segnalare rapidamente gli errori e i dati operativi provenienti dal traffico dei pazienti o l'uso dei letti ospedalieri possono informare la scalabilità del personale.

Machine learning più veloce e sicuro con Oracle

Il machine learning in Oracle Database offre una gamma di funzionalità e caratteristiche finalizzate ad accelerare il processo. Grazie alla possibilità di conservare i dati all'interno del database, i data scientist possono semplificare il flusso di lavoro e aumentare la sicurezza, sfruttando al contempo oltre 30 algoritmi integrati ad alte prestazioni, il supporto per i linguaggi più diffusi, tra cui R, SQL e Python, le funzionalità di machine learning automatizzate e le interfacce senza codice.

Per le organizzazioni con data set di grandi dimensioni, il machine learning integrato nel database con HeatWave MySQL annulla la necessità di spostare i dati in un sistema separato per il machine learning, il che può contribuire ad aumentare la sicurezza, ridurre i costi e risparmiare tempo. HeatWave AutoML automatizza il ciclo di vita del machine learning, inclusa la selezione degli algoritmi, il campionamento intelligente dei dati per la formazione dei modelli, la selezione delle funzioni e l'ottimizzazione degli iperparametri, cosa che permette ai clienti di risparmiare molto tempo e tanta fatica.

Il vantaggio del machine learning è la capacità di analizzare e interpretare grandi quantità di dati in modo rapido e accurato. Una volta addestrati, i modelli di machine learning possono identificare in pochi secondi o minuti modelli, tendenze e insight che potrebbero richiedere settimane agli esseri umani o che potrebbero non vedere mai la luce del giorno. Il risultato è un processo decisionale più informato, una migliore risoluzione dei problemi e la capacità di fare previsioni basate sui dati. Inoltre, i modelli di machine learning possono automatizzare i processi ripetitivi, risparmiando tempo e risorse. Il machine learning sta realizzando il suo potenziale per rivoluzionare il posto di lavoro e promuovere l'innovazione.

Il machine learning è la chiave per sbloccare il valore dei tuoi dati e il primo passo di un programma di intelligenza artificiale di successo.

Domande frequenti sul machine learning

Qual è la differenza tra AI e ML?

L'intelligenza artificiale è il nome dato all'ampia materia informatica che si concentra sull'ideazione e il perfezionamento di sistemi per pensare come gli esseri umani. Il machine learning è un sottoinsieme di questo campo che si concentra specificamente sull'aspetto computazionale del processo di apprendimento. I due termini sono spesso usati in modo intercambiabile e affrontano sfide simili, ma hanno una loro identità specifica nonostante questa connessione.

Quali sono i quattro principali tipi di machine learning?

I quattro tipi di machine learning sono i seguenti:

  • Supervisionato. L'apprendimento supervisionato utilizza set di dati etichettati per addestrare l'algoritmo verso un obiettivo specifico.
  • Non supervisionato. L'apprendimento non supervisionato utilizza set di dati non etichettati che forniscono lo spazio dell'algoritmo per esplorare e identificare i modelli.
  • Semi-supervisionato. L'apprendimento semi-supervisionato utilizza set di dati etichettati per la formazione iniziale al fine di stabilire i parametri ampi del progetto. Quindi l'algoritmo utilizza tale addestramento per valutare i campioni non etichettati e verificare se può etichettarli con un'alta probabilità. Questo processo può essere ripetuto, con il set di campioni etichettati che cresce a ogni iterazione.
  • Rinforzo. L'apprendimento di rinforzo agisce in modo simile all'apprendimento non supervisionato in quanto utilizza set di dati non etichettati. Tuttavia, l'apprendimento di rinforzo si concentra sull'apprendimento del percorso migliore per raggiungere un obiettivo specifico attraverso feedback positivi, negativi e neutri piuttosto che sulla ricerca di modelli.

È difficile imparare il machine learning?

Come ogni mestiere tecnico, imparare i dettagli del machine learning è un processo iterativo che richiede tempo e dedizione. Un buon punto di partenza per il machine learning è avere una base di conoscenza dei linguaggi di programmazione, come Python o R, oltre a una comprensione della statistica. Molti elementi coinvolti nella valutazione dell'output del machine learning richiedono la comprensione di concetti statistici, come regressione, classificazione, adattamento e parametri.

Qual è un esempio di machine learning?

Uno degli esempi più comuni di machine learning è un motore di suggerimenti. Nell'e-commerce, è un suggerimento di prodotto come "ti potrebbe anche piacere..." Nei media di streaming video è un suggerimento su cosa guardare dopo. In questi casi, l'algoritmo prende la cronologia di un utente e crea previsioni per ciò che l'utente potrebbe trovare interessante e più l'utente aggiunge punti dati, più l'algoritmo può perfezionare le previsioni.