---
title: "Intelligenza artificiale sul tuo computer: perché conviene far girare gli LLM \"in locale\""
description: "Privacy totale, nessun abbonamento e zero limiti d'uso: eseguire i modelli linguistici direttamente sul proprio Mac o PC è oggi alla portata di molti. Ecco cosa serve, quali strumenti usare e dove sono i limiti rispetto alle API cloud a pagamento."
category: "Scienza e tecnologia"
category_url: https://ilcorrente.it/categoria/vetenskap
author: "Elena Costa"
published: 2026-06-22T12:37:00.000Z
updated: 2026-06-22T12:37:00.000Z
canonical: https://ilcorrente.it/articolo/intelligenza-artificiale-llm-in-locale
tags: ["intelligenza artificiale", "LLM", "privacy", "Ollama", "LM Studio", "Apple Silicon"]
---
# Intelligenza artificiale sul tuo computer: perché conviene far girare gli LLM "in locale"

Privacy totale, nessun abbonamento e zero limiti d'uso: eseguire i modelli linguistici direttamente sul proprio Mac o PC è oggi alla portata di molti. Ecco cosa serve, quali strumenti usare e dove sono i limiti rispetto alle API cloud a pagamento.

Per mesi l'idea di usare un'intelligenza artificiale generativa ha coinciso con un abbonamento mensile o con una carta di credito collegata a un'API. Ma c'è un'alternativa che cresce in fretta: far girare i modelli linguistici (gli LLM) direttamente sul proprio computer, senza che nemmeno una parola finisca su un server esterno. Si chiama inferenza "in locale", ed è diventata realistica anche su un portatile, soprattutto con i Mac dotati di memoria unificata.

## Cosa significa eseguire un LLM in locale

Un modello linguistico è, in sostanza, un grande file di "pesi" numerici. Eseguirlo in locale vuol dire scaricare quel file e farlo calcolare dal processore e dalla scheda grafica del proprio computer, invece di mandare la richiesta ai data center di OpenAI, Google o Anthropic. Il dialogo con l'assistente avviene interamente sulla propria macchina.

Questo è possibile grazie ai cosiddetti modelli "aperti" (*open-weight*), distribuiti gratuitamente: tra i più diffusi ci sono i Llama di Meta, i francesi Mistral e i cinesi Qwen, oltre a famiglie come Phi e Gemma. Si scaricano in genere in una versione "compressa" (quantizzata) che riduce drasticamente la memoria necessaria mantenendo gran parte della qualità.

## I vantaggi: privacy, costi e nessun limite

Il primo vantaggio è la privacy. Documenti riservati, cartelle cliniche, contratti, codice aziendale: niente lascia il computer. Per chi lavora sotto vincoli come il GDPR è una semplificazione enorme, perché [il dato non esce dalla propria infrastruttura](https://effloow.com/articles/self-hosting-llms-vs-cloud-apis-cost-performance-privacy-2026).

Il secondo è il costo. Le API cloud si pagano a consumo, e con un uso intenso la spesa si accumula in fretta. In locale, una volta acquistato l'hardware, l'elaborazione è di fatto gratuita. Seguono l'assenza di abbonamenti e di limiti d'uso: niente canone mensile, niente *rate limit* che bloccano le richieste, possibilità di lavorare anche offline.

## Cosa serve: RAM e memoria unificata

Il fattore decisivo è la memoria. Con la quantizzazione a 4 bit (oggi lo standard), un modello da 7-8 miliardi di parametri occupa [circa 4-6 GB](https://daily.dev/blog/running-llms-locally-ollama-llama-cpp-self-hosted-ai-developers/). Indicativamente servono 16 GB di RAM per modelli da 13 miliardi di parametri, 20-24 GB per i 32 miliardi e 48 GB o più per i 70 miliardi.

Qui i Mac Apple Silicon hanno un vantaggio strutturale: la memoria unificata, condivisa tra CPU e GPU, elimina il collo di bottiglia tipico dei PC con scheda grafica dedicata. Un portatile con 16 GB esegue [modelli da 7-8 miliardi a 30-50 token al secondo](https://www.sitepoint.com/local-llms-apple-silicon-mac-2026/); con 48-64 GB si arriva a far girare modelli da 32 miliardi. Sui PC Windows conta invece la VRAM della scheda grafica.

## Gli strumenti: Ollama e LM Studio

Non serve essere programmatori. Ollama scarica e avvia un modello con un singolo comando da terminale ed espone un'API compatibile con quella di OpenAI, comoda per integrarlo in altre app. [LM Studio](https://lmstudio.ai/docs/app/system-requirements) offre invece un'interfaccia grafica con catalogo dei modelli, ideale per sperimentare. Entrambi consigliano almeno 16 GB di RAM.

## I limiti: realismo prima di tutto

Non è tutto oro. I modelli che girano su un computer di casa restano più piccoli e meno capaci dei modelli di frontiera in cloud. Le valutazioni indicano che i migliori modelli locali raggiungono punteggi nei benchmark inferiori a quelli dei modelli chiusi più avanzati, e i modelli più leggeri scendono ulteriormente. La velocità dipende dall'hardware e, per i modelli più grandi, può essere bassa. C'è poi l'onere di aggiornare i modelli e gestire la configurazione.

La scelta, insomma, dipende dall'uso: per riassunti, scrittura, analisi di documenti e codice di routine il locale è già oggi più che sufficiente; per le richieste più complesse il cloud resta avanti. Ma la possibilità esiste, è gratuita ed è alla portata di chiunque abbia un computer abbastanza dotato.

## Fonti

- [Local LLMs on Apple Silicon Mac 2026](https://www.sitepoint.com/local-llms-apple-silicon-mac-2026/)
- [Running LLMs Locally in 2026: Ollama, llama.cpp, and Self-Hosted AI](https://daily.dev/blog/running-llms-locally-ollama-llama-cpp-self-hosted-ai-developers/)
- [System Requirements](https://lmstudio.ai/docs/app/system-requirements)