Quando scrivere bene diventa una colpa

Francesco Marinoni Moretto è un AI Architect milanese, formazione Bocconi, expertise in Constitutional AI. Lavora su sistemi che dovrebbero rendere l'intelligenza artificiale più affidabile. A gennaio 2026 prova a pubblicare su LessWrong, uno dei forum più influenti nella comunità dell'AI safety, un paper tecnico su come migliorare la qualità epistemica dei sistemi RAG, quei sistemi che permettono ai modelli linguistici di attingere a basi documentali esterne.
Il paper si intitola "Clarity Gate: Open-Source Epistemic Quality Verification for RAG Systems". Presenta un problema reale: quando un documento scientifico viene spezzettato per essere indicizzato, il contesto che rende coerenti dati apparentemente contraddittori scompare. Un parametro che appare con tre valori diversi in punti diversi dello stesso paper, tutti corretti per regimi diversi, diventa fonte di allucinazioni quando l'AI risponde senza avere accesso alla spiegazione che li riconcilia, magari quattordici pagine dopo.
Marinoni Moretto propone una soluzione: verificare la qualità epistemica dei documenti prima che entrino nelle basi dati, non dopo. Ha costruito un tool open source, lo ha testato su benchmark sintetici, ha documentato metodologia e limitazioni con onestà quasi pedante. Scrive cose come "These are early results" e "What I cannot claim yet". Invita esplicitamente alla falsificazione.
Il paper viene rifiutato automaticamente. La motivazione: "This is an automated rejection. No LLM generated, heavily assisted/co-written, or otherwise reliant work."
Marinoni Moretto riscrive. Cambia titolo, riformula, mantiene la sostanza scrivendo il tutto. L'ultima versione si chiama "Pre-Ingestion: An Overlooked Source of RAG Hallucinations". Stessa metodologia rigorosa, stesse limitazioni esplicitate, stesso invito alla collaborazione per validare i risultati.
Rifiutato di nuovo. Questa volta la motivazione è: "Not obviously not Language Model."
Vale la pena soffermarsi su questa formula. "Not obviously not Language Model" significa: non riusciamo a dimostrare che non sia AI, quindi lo rifiutiamo comunque. L'onere della prova si è invertito. Non devi più dimostrare di aver copiato; devi dimostrare di non aver scritto troppo bene.
L'ironia si stratifica fino a diventare insopportabile. Un paper sulla verifica epistemica viene rifiutato da un sistema che non verifica nulla. Un contributo sulla qualità dell'informazione viene bloccato da un filtro che non distingue qualità da origine. Un lavoro che propone un "enforcement layer" per documenti viene fermato da un enforcement layer difettoso.
Il meccanismo di fondo merita attenzione. I tool di AI detection funzionano principalmente misurando la "perplexity" del testo, un indicatore di quanto sia prevedibile la sequenza di parole. Bassa perplexity significa vocabolario accessibile, struttura logica, progressione chiara. Esattamente le qualità che rendono la scrittura efficace. Il sistema interpreta chiarezza espositiva come firma di generazione automatica.
La ricerca empirica conferma che questo non è un caso isolato. Weber-Wulff e colleghi hanno testato 14 tool di detection: tutti hanno ottenuto accuratezza inferiore all'80%. Liang e colleghi, in uno studio pubblicato su Patterns, hanno dimostrato che diversi detector popolari classificano erroneamente oltre il 61% dei saggi scritti da non madrelingua inglese come generati da AI, mentre l'accuratezza sui testi di studenti americani è quasi perfetta. Pratama ha identificato un tradeoff particolarmente insidioso: GPTZero, il tool più accurato tra quelli testati, mostra bias statisticamente significativo contro i non madrelingua, con il 25% degli autori non nativi a rischio di falsa accusa contro l'11% dei madrelingua.
Il pattern che emerge è più ampio della semplice inaccuratezza tecnica. I sistemi di detection stanno creando incentivi perversi che degradano la qualità della comunicazione. Gli autori imparano a evitare la chiarezza che trigghera la detection. Producono testi ottimizzati per algoritmi invece che per la comprensione.
Il caso di Marinoni Moretto, documentato nel suo stesso abstract accademico presentato alla conferenza DINAMICA 2026, include un dettaglio rivelatore. In una precedente esperienza di ban su LessWrong, aveva riscritto un testo trenta volte di proprio pugno. GPTZero assegnava punteggi radicalmente diversi a sezioni diverse dello stesso documento: 17% di probabilità AI per le parti narrative, 85% per le parti esplicative. La differenza di 68 punti percentuali non correlava con chi aveva scritto il testo. Correlava con quanto chiaramente era scritto.
La dinamica ricorda quello che è successo con il SEO tradizionale, ma con una differenza cruciale. Il SEO degradato riempiva la rete di contenuto ottimizzato per macchine stupide, ma non impediva attivamente a chi scriveva bene di esistere. I tool di AI detection creano invece un filtro attivo che esclude sulla base di competenza comunicativa. Chi sa scrivere sul serio ha due opzioni: degradare deliberatamente la propria prosa per passare i filtri, oppure affrontare il sospetto permanente. Chi scrive male per incompetenza passa indisturbato.
C'è un'ironia strutturale che merita di essere notata. Per decenni la scrittura accademica è stata criticata per essere inutilmente opaca, piena di gergo specialistico, strutturalmente contorta. Finalmente arrivano strumenti che potrebbero aiutare a scrivere meglio. La risposta istituzionale è: se scrivi troppo bene, sei sospetto.
Luciano Floridi, nel suo recente paper sui nuovi gatekeeper editoriali basati su LLM, identifica il rischio di "omogenizzazione del contenuto". Ma il termine cattura solo metà del problema. Non è solo omologazione. È omologazione verso il peggio. Una corsa al ribasso dove vince chi è più bravo a sembrare incompetente.
La domanda che nessuno sta facendo apertamente: se i tool di detection non riescono a distinguere scrittura umana eccellente da output AI, forse il problema non è nei tool. Forse la distinzione che stiamo cercando di fare non esiste nei termini in cui la formuliamo. Chiarezza, struttura e accessibilità non sono firme di macchina. Sono caratteristiche di comunicazione efficace, chiunque la produca.
Ma questa è una domanda che mette in discussione l'intero edificio. Più comodo aggiustare i parametri e continuare a escludere chi scrive troppo bene.
La discriminazione non è solo verso i non madrelingua con vocabolario semplice. È verso chiunque abbia imparato a comunicare con precisione. Un AI Architect che lavora su come rendere l'AI più affidabile viene escluso da un forum sull'AI safety perché il suo lavoro sembra troppo ben scritto per essere umano.
La metrica è diventata il destino. E il destino è scrivere peggio.
Iscriviti alla newsletter The Clinical Substrate
Ogni venerdì, pattern recognition attraverso i layer che altri non vedono.