A dicembre 2024 Google presentò Project Mariner con toni entusiastici: un agente AI capace di aprire il browser, leggere le pagine, riempire moduli, comprare prodotti, prenotare voli, cercare informazioni. In pratica, un assistente che fa le cose al posto tuo, navigando internet esattamente come faresti tu. Quindici mesi dopo, il team è stato smantellato e le risorse redistribuite su altri progetti. Una notizia di settore, in apparenza. In realtà, uno specchio di qualcosa di molto più interessante.

Perché navigare il web è difficile per le macchine

Per capire perché Mariner ha faticato, bisogna partire da una cosa che diamo così per scontata da non vederla più: il web è stato progettato per gli occhi umani. Ogni pagina web che apri è, nella sua essenza, un documento visuale. Il suo scopo è essere percepito, letto, interpretato da un cervello che sa cosa significa un bottone, che riconosce un campo di testo, che capisce l'ironia nel titolo di una notizia.

Un agente AI non vede nulla di tutto questo. Riceve un fiume di codice HTML, centinaia di elementi sovrapposti, stili CSS che ridisegnano continuamente la struttura, script JavaScript che modificano la pagina in tempo reale dopo il caricamento. Per un agente che deve capire dove cliccare, distinguere il prezzo di un prodotto da quello della spedizione, o riconoscere che quel testo in grigio chiaro è disabilitato, si tratta di un problema di interpretazione enorme. Ogni sito è diverso dagli altri. Ogni aggiornamento di layout rompe quello che l'agente aveva imparato a fare. È come insegnare a qualcuno a guidare su una strada che cambia forma ogni giorno.

Il web è stato progettato per gli occhi umani. Chiedere a un agente AI di navigarlo è come chiedere a qualcuno di leggere un libro tenendolo sotto una luce che si accende e si spegne ogni due secondi.

C'è poi il problema dei costi. Ogni volta che un agente analizza una pagina web, consuma una quantità enorme di token, l'unità di misura del lavoro che un modello AI compie. Analizzare visivamente un'interfaccia, interpretare i suoi elementi, decidere quale azione compiere e verificare se l'azione ha avuto effetto: tutto questo costa. Su scala, costa moltissimo. Ed è lento, perché ogni passaggio richiede un ciclo completo di elaborazione. Il risultato pratico è che un agente che prenota un volo autonomamente impiega minuti, non secondi, e può sbagliare in modo imprevedibile se il sito nel frattempo ha cambiato anche solo la posizione di un elemento.

Il problema non era l'AI. Era il mezzo

Qui sta il punto che mi sembra più sottovalutato nel racconto pubblico di questa storia. Il fallimento relativo di Mariner non dice nulla sulle capacità dell'intelligenza artificiale. Dice tutto sulla natura del web attuale. Abbiamo costruito, nel corso di trent'anni, un'infrastruttura pensata esclusivamente per la percezione umana, e ora proviamo a farci sopra girare macchine che non hanno occhi.

È un po' come se avessimo costruito un sistema autostradale bellissimo, con cartelli colorati, segnali visivi, rotatorie intuitive per un guidatore, e poi provassimo a farci girare veicoli autonomi che si orientano solo tramite dati GPS e sensori. Funziona, ma con uno sforzo sproporzionato rispetto a quello che sarebbe necessario se il sistema fosse stato pensato anche per loro fin dall'inizio.

La risposta dell'industria a questo problema non è arrivata sotto forma di annunci o conferenze stampa. È arrivata sotto forma di uno standard tecnico, pubblicato quasi in silenzio, che nel giro di poco più di un anno è diventato il protocollo di riferimento di tutta l'industria AI. Si chiama MCP, Model Context Protocol. Ed è, a mio avviso, una delle cose più interessanti che stanno succedendo nel settore tecnologico in questo momento.

Cos'è MCP: spiegato bene

Approfondimento tecnico

MCP, Model Context Protocol, è uno standard aperto introdotto da Anthropic nel novembre 2024 e rapidamente adottato da OpenAI, Google DeepMind e Microsoft. Da dicembre 2025 è gestito dalla Linux Foundation sotto una fondazione neutrale, il che significa che nessuna singola azienda lo controlla.

Il modo più semplice per capire cosa fa è partire da un'analogia. Prima che esistesse il cavo USB-C, ogni dispositivo elettronico aveva il suo connettore proprietario: Lightning per gli iPhone, micro-USB per gli Android, connettori diversi per fotocamere, hard disk, cuffie. Se volevi collegare due dispositivi, dovevi avere il cavo giusto, e spesso non esisteva. MCP è l'equivalente dell'USB-C per l'intelligenza artificiale: uno standard unico che permette a qualsiasi agente AI di connettersi a qualsiasi sistema esterno, senza bisogno di un connettore su misura per ogni combinazione.

Concretamente funziona così. Un servizio, diciamo Google Drive, espone un "server MCP": un piccolo programma che descrive all'agente AI cosa può fare (leggere file, cercare documenti, creare cartelle) e come farlo, usando un linguaggio standardizzato. L'agente AI, che è il "client MCP", legge questa descrizione e sa esattamente come interagire con Drive, senza dover interpretare nessuna interfaccia visuale. Non vede pulsanti, non analizza layout, non legge HTML. Riceve direttamente dati strutturati e può agire in modo preciso, veloce e prevedibile.

Prima di MCP, ogni sviluppatore che voleva connettere un'AI a un servizio esterno doveva scrivere un'integrazione personalizzata. Se aveva dieci servizi e tre modelli AI diversi, erano potenzialmente trenta integrazioni diverse da costruire e mantenere. Con MCP, ogni servizio scrive il connettore una volta sola, e qualsiasi AI compatibile con lo standard può usarlo immediatamente.

Al momento esistono già migliaia di server MCP pubblici: per Google Drive, Slack, GitHub, database, sistemi di ticketing aziendali, strumenti di analisi dati. La crescita è stata così rapida che Anthropic, OpenAI e Microsoft hanno deciso insieme di affidarne la governance a una fondazione neutrale, per impedire che diventasse un campo di battaglia competitivo. Quando i principali rivali di un settore si siedono allo stesso tavolo per dichiarare che un pezzo di infrastruttura deve rimanere aperto e condiviso, di solito significa che quella infrastruttura è considerata fondamentale.

Il web che si sta costruendo al piano di sotto

Mettendo insieme questi elementi, il quadro che emerge è quello di una transizione silenziosa in corso. Da un lato, il web visuale che tutti conoscono continua ad esistere per gli utenti umani, con le sue pagine, i suoi layout, le sue animazioni. Dall'altro, si sta costruendo un secondo livello di internet, invisibile all'utente finale, fatto di server MCP e connettori strutturati, pensato esclusivamente per essere consumato da agenti AI.

Non è fantascienza. È già adesso. Quando usi Claude o un altro assistente AI e gli chiedi di cercare qualcosa nei tuoi documenti di lavoro, o di creare un evento nel calendario, o di analizzare i dati di un database aziendale, molto probabilmente sta usando un connettore MCP, non navigando una pagina web. La risposta arriva in pochi secondi, è precisa, non sbaglia perché il layout è cambiato.

La mossa di Google di spostare risorse da Mariner verso i coding agents si legge perfettamente in questa chiave. Formare sviluppatori che costruiscano connettori MCP è strategicamente molto più efficiente che insegnare a un agente a fingere di essere un umano davanti a un browser. Non si tratta di abbandonare l'idea di un web navigabile dagli agenti. Si tratta di costruire un web che non abbia bisogno di essere "navigato" nel senso tradizionale del termine, perché è stato progettato fin dall'inizio per essere interrogato in modo diretto e strutturato.

Cosa cambia, concretamente

Per chi usa l'AI nel lavoro quotidiano, questa transizione porta benefici molto concreti. Gli agenti che operano su MCP sono più veloci, più economici da far girare, molto più affidabili. Possono compiere azioni su sistemi complessi senza i problemi di instabilità che affliggono chi prova a fargli usare interfacce grafiche. Un agente che gestisce i ticket del supporto clienti tramite un connettore MCP con il CRM aziendale fa un lavoro qualitativamente diverso da uno che cerca di cliccare sui pulsanti dell'interfaccia web.

Per chi sviluppa servizi digitali, la questione è ancora più rilevante. Nei prossimi anni, avere un server MCP per il proprio servizio diventerà probabilmente tanto importante quanto avere oggi un'app mobile. Se il tuo servizio non è raggiungibile dagli agenti AI in modo strutturato, semplicemente non esisterà nel loro mondo. Sarà come avere un negozio senza insegna in una strada dove tutti guidano a velocità doppia e non possono permettersi di fermarsi a leggere.

La domanda che trovo più interessante, e che per il momento rimane aperta, riguarda chi controlla questo nuovo livello. Il web visuale è distribuito, caotico, difficilmente censurabile proprio perché è fatto di milioni di pagine diverse. Il layer MCP, per funzionare bene, tende verso la standardizzazione e la concentrazione: pochi server grandi, molto usati, gestiti da chi ha le risorse per mantenerli. Chi decide quali dati esporre, in quale formato, con quale granularità, avrà un potere sull'ecosistema AI che oggi è difficile da immaginare appieno. È una conversazione che vale la pena iniziare adesso, prima che l'infrastruttura sia già costruita.