Perché non dovresti mai fidarti di un solo LLM: Benvenuti nel mio "Consiglio"

Come uso lo strumento open-source di Andrej Karpathy per smontare le mie stesse idee e prendere decisioni migliori in Boolean.

C’è una trappola in cui cadiamo quasi tutti quando usiamo ChatGPT, Claude o Gemini: li trattiamo come oracoli solitari. Gli facciamo una domanda, leggiamo la risposta, e se ci "suona" bene, la prendiamo per buona. Spesso ci dimentichiamo che questi modelli, per quanto straordinari, hanno dei bias intrinseci, delle allucinazioni creative e, a volte, sono semplicemente pigri.

Al lavoro, specialmente quando dobbiamo validare assumption di prodotto o riflettere su nuovi approcci educativi qui in Boolean, ho capito che non potevo più permettermi di ascoltare una sola voce. Avevo bisogno di un dibattito. Ed è qui che entra in gioco un piccolo "segreto" tecnico che sta cambiando il mio modo di lavorare: LLM Council.

Il "Trucco" di Andrej Karpathy

Se seguite il mondo dell'AI, il nome Andrej Karpathy non ha bisogno di presentazioni. Uno dei co-fondatori di OpenAI, ex-direttore dell'AI di Tesla, e oggi probabilmente il miglior divulgatore tecnico sulla piazza (i suoi video su YouTube sono delle vere masterclass).

Qualche tempo fa, Andrej ha rilasciato un repository su GitHub chiamato, appunto, LLM Council. Non è un prodotto commerciale con un ufficio marketing dietro. È uno strumento grezzo, potente e terribilmente onesto. L'idea è semplice ma geniale: invece di chiedere a un modello, crei un "consiglio" di diversi modelli che collaborano, si criticano a vicenda e arrivano a una sintesi.

LLM Council Interface
L'interfaccia di LLM Council: un confronto trasparente tra i pesi massimi dell'AI.

Come funziona (e perché è diverso da una chat normale)

In genere, quando usiamo un LLM, il processo è lineare: Input -> Output. Con LLM Council, Karpathy ha introdotto una struttura a tre stadi che emula il processo di revisione paritaria (peer review) del mondo accademico:

  1. Opinioni Individuali: La tua domanda viene inviata contemporaneamente a tutti i modelli che hai scelto (magari GPT-4o, Claude 3.5 Sonnet e Gemini 1.5 Pro). Ognuno risponde in modo indipendente.
  2. Peer Review: Qui accade la magia. Ogni modello legge le risposte degli altri senza sapere chi le ha scritte (vengono anonimizzate) e deve valutarle, criticarle e classificarle per accuratezza.
  3. Sintesi del Presidente (The Chairman): Un modello designato come "Presidente" analizza tutto: la tua domanda originale, le risposte individuali e le critiche incrociate. Poi scrive una risposta finale che integra i punti di forza di tutti e scarta le imprecisioni.

L'ho installato localmente e devo dirvi che vedere GPT che corregge un errore logico di Claude, o Gemini che aggiunge un contesto che gli altri avevano ignorato, è un'esperienza illuminante. Ti toglie quell'illusione di "verità assoluta" che la UI pulita di ChatGPT tende a venderci.

Perché lo uso per validare le mie Assumption

Nel mio ruolo di CPO, mi trovo spesso a dover prendere decisioni basate su dati parziali o intuizioni che devono essere validate velocemente. "Questa nuova funzionalità di mentoring aiuterà davvero gli studenti o complicherà solo la piattaforma?".

Usare LLM Council per queste riflessioni è come avere un team di consulenti senior sempre pronti, ma con il pregio di non avere paura di contraddirmi o di contraddirsi tra loro.

1. Rilevare i Bias di Categoria

Ogni azienda di AI ha una sua "personalità". I modelli OpenAI tendono a essere molto sicuri di sé e concisi; quelli di Anthropic sono più cauti e riflessivi; Google ha un accesso al contesto informativo immenso ma a volte perde il focus. Metterli nello stesso "consiglio" fa emergere queste differenze. Se tutti e tre sono d'accordo su un rischio di prodotto, allora quel rischio è reale. Se non lo sono, c'è un'area grigia che devo esplorare meglio io, come umano.

2. Evitare il conformismo

Quando lavoro con il mio team (persone fantastiche, sia chiaro), c'è sempre il rischio del groupthink. A volte, inconsciamente, ci si allinea alla visione del leader o alla direzione che sembra più facile. Il Consiglio non ha sentimenti. Se una mia idea è debole, il processo di peer review la distrugge in trenta secondi. È un esercizio di umiltà intellettuale incredibile.

Team Collaboration
La tecnologia deve potenziare il pensiero critico, non sostituirlo.
Code setup
Configurare il Consiglio richiede solo una chiave API e un po' di curiosità.

Limiti e "Onestà Intellettuale"

Non voglio vendervi questo strumento come la panacea di tutti i mali. Ci sono dei costi (usare 4 modelli contemporaneamente costa, ovviamente, 4 volte di più in termini di token) e c'è una latenza maggiore, visto che dobbiamo aspettare che tutti parlino prima di avere la sintesi.

Inoltre, c'è un limite fondamentale: se tutti i modelli sono stati addestrati su dati che contengono lo stesso pregiudizio, il Consiglio non lo risolverà magicamente. La responsabilità finale resta sempre nostra. L'AI è il copilota, ma la barra è nelle nostre mani.

Iniziamo la conversazione

Viviamo in un'epoca in cui la competenza non è più solo sapere le cose, ma sapere come interrogare le macchine che le sanno. LLM Council è, per me, l'esempio perfetto di come possiamo usare la tecnologia per essere meno pigri mentalmente, e non il contrario.

Voi come state gestendo il confronto tra diversi modelli? Vi fidate della prima risposta che ricevete o avete i vostri "trucchi" per verificare le informazioni?

Se volete provarlo, il link è qui: Repository di Karpathy. Fatemi sapere nei commenti se riuscite a installarlo o se volete una mano a capire come configurare i vari modelli.

A presto,
Andrea