Intelligenza artificiale sul tuo computer: perché conviene far girare gli LLM "in locale"

Per mesi l'idea di usare un'intelligenza artificiale generativa ha coinciso con un abbonamento mensile o con una carta di credito collegata a un'API. Ma c'è un'alternativa che cresce in fretta: far girare i modelli linguistici (gli LLM) direttamente sul proprio computer, senza che nemmeno una parola finisca su un server esterno. Si chiama inferenza "in locale", ed è diventata realistica anche su un portatile, soprattutto con i Mac dotati di memoria unificata.

Cosa significa eseguire un LLM in locale

Un modello linguistico è, in sostanza, un grande file di "pesi" numerici. Eseguirlo in locale vuol dire scaricare quel file e farlo calcolare dal processore e dalla scheda grafica del proprio computer, invece di mandare la richiesta ai data center di OpenAI, Google o Anthropic. Il dialogo con l'assistente avviene interamente sulla propria macchina.

Questo è possibile grazie ai cosiddetti modelli "aperti" (open-weight), distribuiti gratuitamente: tra i più diffusi ci sono i Llama di Meta, i francesi Mistral e i cinesi Qwen, oltre a famiglie come Phi e Gemma. Si scaricano in genere in una versione "compressa" (quantizzata) che riduce drasticamente la memoria necessaria mantenendo gran parte della qualità.

I vantaggi: privacy, costi e nessun limite

Il primo vantaggio è la privacy. Documenti riservati, cartelle cliniche, contratti, codice aziendale: niente lascia il computer. Per chi lavora sotto vincoli come il GDPR è una semplificazione enorme, perché il dato non esce dalla propria infrastruttura.

Il secondo è il costo. Le API cloud si pagano a consumo, e con un uso intenso la spesa si accumula in fretta. In locale, una volta acquistato l'hardware, l'elaborazione è di fatto gratuita. Seguono l'assenza di abbonamenti e di limiti d'uso: niente canone mensile, niente rate limit che bloccano le richieste, possibilità di lavorare anche offline.

Cosa serve: RAM e memoria unificata

Il fattore decisivo è la memoria. Con la quantizzazione a 4 bit (oggi lo standard), un modello da 7-8 miliardi di parametri occupa circa 4-6 GB. Indicativamente servono 16 GB di RAM per modelli da 13 miliardi di parametri, 20-24 GB per i 32 miliardi e 48 GB o più per i 70 miliardi.

Qui i Mac Apple Silicon hanno un vantaggio strutturale: la memoria unificata, condivisa tra CPU e GPU, elimina il collo di bottiglia tipico dei PC con scheda grafica dedicata. Un portatile con 16 GB esegue modelli da 7-8 miliardi a 30-50 token al secondo; con 48-64 GB si arriva a far girare modelli da 32 miliardi. Sui PC Windows conta invece la VRAM della scheda grafica.

Gli strumenti: Ollama e LM Studio

Non serve essere programmatori. Ollama scarica e avvia un modello con un singolo comando da terminale ed espone un'API compatibile con quella di OpenAI, comoda per integrarlo in altre app. LM Studio offre invece un'interfaccia grafica con catalogo dei modelli, ideale per sperimentare. Entrambi consigliano almeno 16 GB di RAM.

I limiti: realismo prima di tutto

Non è tutto oro. I modelli che girano su un computer di casa restano più piccoli e meno capaci dei modelli di frontiera in cloud. Le valutazioni indicano che i migliori modelli locali raggiungono punteggi nei benchmark inferiori a quelli dei modelli chiusi più avanzati, e i modelli più leggeri scendono ulteriormente. La velocità dipende dall'hardware e, per i modelli più grandi, può essere bassa. C'è poi l'onere di aggiornare i modelli e gestire la configurazione.

La scelta, insomma, dipende dall'uso: per riassunti, scrittura, analisi di documenti e codice di routine il locale è già oggi più che sufficiente; per le richieste più complesse il cloud resta avanti. Ma la possibilità esiste, è gratuita ed è alla portata di chiunque abbia un computer abbastanza dotato.