La colpa di scrivere bene

Alle elementari non ho mai fatto la brutta di un tema. Scrivevo di getto, buona la prima, in italiano e in inglese e non credo che dipendesse dallo studio della grammatica. Era qualcosa di diverso, una capacità di gestire il linguaggio che non ho costruito ma che mi sono ritrovato addosso. Lo stesso succedeva e succede anche oggi quando parlavo: a volte esce fuori qualcosa che da fastidio, crea sospetti, viene letta come arroganza. Il risultato pratico: ho dovuto imparare a sembrare meno capace per non essere messo da parte.
A un certo punto, per passare il tempo durante il Covid, ho fatto un minimaster on-line sulla retorica, proprio per capire come modulare il registro in base all'interlocutore. Pensavo di correggere il problema ma ho affinato il dono.
Anni dopo ho capito che non era un problema mio. Era un problema di tutti i sistemi che misurano la competenza attraverso la sua assenza relativa, quelli tarati sulla media che si inceppano quando incontrano l'eccezione.
C'è una storia che mi segue da qualche mese e non riesco a lasciarla andare. Non per quello che racconta di un singolo caso, ma per quello che rivela di un meccanismo molto più largo, uno di quelli che quando lo vedi non riesci più a non vederlo ovunque.
Ne ho già scritto qui qualche tempo fa, ma vale riprenderla perché il punto centrale di quel pezzo era il caso specifico; oggi mi interessa la struttura. Un ricercatore italiano presenta un paper a una community di AI safety. Argomento: come migliorare la qualità epistemica dei sistemi RAG, quei motori che recuperano informazioni per alimentare le risposte dei modelli linguistici. Il lavoro è solido, metodologia esplicita, limitazioni dichiarate con una certa ossessione per l'onestà : "questi sono risultati preliminari", "quello che non posso ancora affermare è". Roba che nel mondo accademico chiami buona pratica scientifica.
Rifiutato automaticamente. Motivazione: generato da intelligenza artificiale.
Riscrive. Stesso contenuto, titolo diverso, trentadue versioni revisionate. Rifiutato di nuovo. La formula questa volta è quasi poetica nella sua assurdità : "Not obviously not Language Model." Non ovviamente non un modello linguistico. L'onere della prova si è invertito senza che nessuno lo dichiarasse: adesso devi dimostrare di non aver scritto troppo bene.
Ho passato vent'anni a lavorare con persone che costruivano sistemi, prima nell'industria creativa durante la transizione digitale degli anni novanta, poi in settori molto diversi. Una cosa l'ho capita presto: ogni sistema di misura porta con sé una zona cieca che è strutturale, non accidentale. Non è che i progettisti sono stati negligenti. È che il sistema misura un proxy, e il proxy a un certo punto tradisce.
I detector di AI misurano la perplexity, cioè quanto sia prevedibile la sequenza di parole in un testo. I modelli linguistici producono sequenze a bassa perplexity perché ottimizzano per la coerenza. Funziona: la scrittura AI media è prevedibile, lineare, simmetrica. Il sistema cattura quella firma abbastanza bene sulla media della popolazione.
Il problema è che chiarezza espositiva, precisione del vocabolario e struttura logica producono esattamente lo stesso segnale per ragioni opposte. Non perché un algoritmo abbia ottimizzato, ma perché una persona ha lavorato molto. La bassa perplexity del testo mediocre generato automaticamente e quella del testo eccellente scritto con cura sono indistinguibili per il detector. Stesso effetto, cause incompatibili.
Uno studio di Liang e colleghi pubblicato su Patterns ha documentato qualcosa di ancora più fastidioso: i detector popolari classificano erroneamente come AI oltre il sessantuno percento dei testi scritti da non madrelingua inglese. Gli studenti americani passano quasi sempre. Uno studente cinese o italiano che scrive in inglese con attenzione al vocabolario viene sistematicamente flaggato. Il sistema che doveva proteggere l'integrità accademica discrimina per origine geografica, senza saperlo e senza volerne rispondere.
Questo è il momento in cui il pattern si allarga e diventa qualcosa di più interessante.
Ho visto lo stesso meccanismo decine di volte in contesti completamente diversi. I sistemi di monitoraggio antiriciclaggio nelle banche flaggano i professionisti con strutture finanziarie complesse e movimenti irregolari per legittimi motivi di business, esattamente il profilo di chi usa strutture finanziarie complesse per ragioni illegittime. I filtri antispam bloccano le newsletter scritte con cura perché il copywriting di qualità assomiglia al copywriting fraudolento molto più di quanto assomigli ai messaggi scritti frettolosamente. I sistemi di credit scoring penalizzano chi non ha mai contratto debiti, perché l'assenza di storia creditizia è indistinguibile dall'assenza di affidabilità . I controlli antiplagio nelle università segnalano chi cita correttamente e abbondantemente più di chi non cita affatto.
Il filo è sempre lo stesso. Il sistema misura un proxy statisticamente correlato al comportamento che vuole intercettare. Funziona sulla distribuzione media. E poi si inceppa sull'eccezione, non sull'eccezione difettosa ma su quella eccellente, quella che assomiglia alla violazione non perché sia una violazione ma perché ha spinto una variabile nella stessa direzione per ragioni radicalmente diverse.
C'è un nome tecnico per questo in teoria del segnale: falso positivo. Ma quella formula asettica non cattura la dimensione sistemica del problema. Non si tratta di errori casuali distribuiti sulla popolazione. Si tratta di errori sistematicamente concentrati su chi fa le cose bene. Il sistema seleziona contro la virtù in modo strutturalmente prevedibile.
Negli anni novanta ho visto qualcosa di simile nella transizione al digitale nel settore creativo. I sistemi di distribuzione nuovi avevano meccanismi di verifica costruiti per intercettare le pratiche scorrette della distribuzione fisica: copie non autorizzate, doppia contabilità , rendicontazioni false. Quei meccanismi funzionavano abbastanza bene contro chi faceva le cose in modo sciatto. Erano devastanti per chi aveva costruito sistemi di rendicontazione molto precisi, perché la precisione generava pattern anomali rispetto alla media del settore. Il sistema interpretava rigore come irregolarità .
L'incentivo perverso che ne emerge è la parte che mi disturba di più. Se scrivere con chiarezza ti fa rifiutare, la risposta razionale è scrivere con meno chiarezza. Se rendicontare con precisione ti fa finire sotto esame, la risposta razionale è rendicontare con approssimazione. Se avere una struttura finanziaria complessa e legittima ti fa flaggare, la risposta razionale è semplificarla anche quando la complessità serve uno scopo. Il sistema non elimina il comportamento scorretto: insegna a tutti a imitare la mediocrità per passare inosservati.
Popper aveva un modo per testare se un sistema di conoscenza funziona: chiedersi cosa lo falsificherebbe. I detector di AI non sono falsificabili nel senso utile: se il testo passa, è umano; se non passa, è AI; se un umano non passa, è perché scrive come un'AI. La categoria "umano che scrive molto bene" non esiste nel modello. Non può esistere, perché ammetterla significherebbe riconoscere che la metrica è sbagliata.
Questo non è un problema tecnico che si risolve con un detector migliore. È un problema epistemologico: stai misurando l'origine attraverso la qualità e la qualità non è un proxy affidabile dell'origine. Puoi raffinare l'algoritmo quanto vuoi, ma finché misuri il segnale sbagliato stai solo spostando dove si concentrano gli errori sistematici, non eliminandoli.
Mi fermo un momento su questo perché è il punto che di solito passa inosservato nel dibattito. Quando un sistema di controllo sbaglia sistematicamente su una categoria specifica di soggetti, quello che succede non è solo un'ingiustizia individuale. Succede che la categoria smette di fare quella cosa. Gli scrittori chiari imparano a scrivere in modo meno chiaro. I ricercatori rigorosi imparano a dichiararsi meno onestamente riguardo alle limitazioni del proprio lavoro. Il comportamento virtuoso viene selezionato fuori dal sistema, non dal mercato e non dai pari, ma dal meccanismo di controllo stesso.
C'è qualcosa di paradossale nell'idea che un sistema nato per proteggere la qualità del discorso intellettuale finisca per degradarla sistematicamente. Ma il paradosso scompare appena si capisce che il sistema non stava misurando qualità : stava misurando un proxy statistico della qualità , su una distribuzione media che non includeva le code eccellenti.
La domanda che resta aperta, quella su cui non ho una risposta pulita, è come si progetta un sistema di controllo che non punisca l'eccezione virtuosa. Non ho visto molte soluzioni convincenti. Ho visto molti tentativi di raffinare i proxy, che spostano il problema senza risolverlo. E ho visto qualcuno proporre di tornare al giudizio umano, che è una risposta onesta ma non scala.
Quello che so è che il prossimo scrittore rifiutato perché scrive troppo bene non è una storia curiosa su una tecnologia imperfetta. È il segnale che un sistema di controllo ha iniziato a selezionare contro ciò che dice di proteggere. E quando succede questo, di solito, il sistema non si corregge: si difende.
C'è però un dettaglio che chiude il cerchio in modo quasi elegante. Accanto ai detector è nata un'industria parallela di tool "humanizer", software che prendono testi classificati come AI e li rendono sufficientemente imperfetti da passare il filtro. Il business model è cristallino: vendi il detector che crea il falso positivo, poi vendi la soluzione al falso positivo che hai creato. Chi costruisce il detector non paga nulla quando sbaglia su di te; paga invece abbastanza bene quando tu hai bisogno di comprare la versione successiva del prodotto. Taleb chiamerebbe questo skin in the game assente. Io lo chiamo un incentivo strutturale a non risolvere il problema.
---
Postscript che vale più di mille parole: questo testo, scritto con istruzioni esplicite perché un sistema AI evitasse i pattern tipici dell'AI, è stato classificato da un detector come cento percento artificiale. Il detector ha ragione nel senso tecnico: i pattern ci sono, perché i pattern di un testo ben costruito non dipendono da chi lo ha costruito. Ha torto nel senso che conta: non sa niente dell'origine, sa solo misurare la qualità . E continua a chiamarla colpa.
Iscriviti alla newsletter The Clinical Substrate
Ogni venerdì, pattern recognition attraverso i layer che altri non vedono.