Condividi
Il report analizza nove aree chiave:
- La natura strutturale del problema — gli LLM predicono testo, non calcolano geometrie: è come navigare usando solo recensioni di ristoranti invece di una mappa.[scintilena]
- Le allucinazioni come proprietà emergente inevitabile — non un bug occasionale, ma una conseguenza delle proprietà geometriche degli spazi latenti ad alta dimensionalità.[scintilena]
- Il bias gerarchico spaziale — forse l’errore più documentato: GPT-4 sbaglia nell’87% dei casi quando la direzione reale tra due città contradice la gerarchia del paese/regione di appartenenza (es. Toronto percepita “a nord” di Portland perché il Canada è nord degli USA).[suprmind]
- Disambiguazione toponimica fragile — la stessa frase riformulata produce risultati opposti; GPT-4 non riesce a concludere che 24 miglia è più vicino di 276 miglia.[sas]
- Bias verso il Global North — Africa sub-sahariana, America Latina, Medio Oriente sistematicamente penalizzati per scarsità di dati nelle lingue dominanti.[ibm +1]
- Il test della Mongolia (2025) — 9 LLM su 12 affermavano con sicurezza che il Kazakhstan confina con la Mongolia, il che è falso.[arxiv +1]
- Implicazioni per la speleologia — grotte, sistemi carsici e aree sotterranee sono tra le entità geografiche più sottorapresentate nei corpus di addestramento.[moxoff +1]
- Tassi di allucinazione — da 0,7% (Gemini Flash) fino al 48% su compiti specifici (o4-mini), con perdite economiche globali da 67,4 miliardi di dollari nel 2024.[singlegrain +1]
- Soluzioni — RAG riduce le allucinazioni del 71%; l’integrazione con motori GIS esterni è la strada maestra per la precisione spaziale.
Limitazioni Strutturali Profonde
Le intelligenze artificiali generative basate su Large Language Models (LLM) presentano limitazioni strutturali profonde quando si confrontano con domande geografiche. Non elaborano mappe, non calcolano coordinate, non comprendono la geometria dello spazio reale: si limitano a predire testo sulla base di associazioni statistiche apparse durante l’addestramento. Questo porta a errori sistematici di localizzazione, di prossimità e di orientamento, oltre a vere e proprie allucinazioni geografiche — ovvero invenzioni di luoghi, confini, distanze e relazioni spaziali che non esistono. Il tasso globale medio di allucinazioni tra tutti i modelli si attesta intorno al 9,2% per domande di conoscenza generale, con picchi del 18,7% su domande giuridiche e del 15,6% su domande mediche.[^1][^2][^3]
1. Cosa sono gli LLM e perché non “capiscono” lo spazio
Gli LLM (Large Language Models), come GPT-4, Gemini o Claude, sono sistemi addestrati su enormi corpus testuali — miliardi di pagine di testo estratte da web, libri, articoli, forum. Il loro meccanismo fondamentale è la predizione statistica del token successivo: data una sequenza di parole, il modello calcola quale parola è più probabile che segua, in base ai pattern visti durante l’addestramento.[^4][^5]
Questo approccio ha prodotto risultati straordinari nella comprensione e produzione del linguaggio, ma porta con sé un limite fondamentale: i modelli non elaborano mappe né costruiscono rappresentazioni mentali di luoghi. Non calcolano distanze, non tracciano percorsi su reti stradali, non interpretano coordinate geografiche come un sistema GIS. Come ha osservato HERE Technologies nel 2026: “Chiedere a un LLM di calcolare relazioni spaziali è come chiedere a qualcuno di navigare in una città usando solo recensioni di ristoranti e blog di viaggio, invece di una mappa e una bussola”.[^6]
Quando si chiede a un LLM di trovare il panificio più vicino a un parco londinese, il modello recupera informazioni testuali e suggerisce un luogo — ma non calcola la distanza effettiva sulla rete stradale tra il parco e le opzioni disponibili. Il risultato può sembrare corretto ma spesso non lo è. La distanza è una proprietà geometrica, non linguistica: un LLM non può calcolarla affidandosi solo al testo.[^6]
2. Il fenomeno delle allucinazioni: origini e meccanismi
2.1 Definizione e natura strutturale
Le “allucinazioni” nei testi generati dall’AI si manifestano con l’inserimento di informazioni inesatte, inventate o completamente errate, pur mantenendo una struttura linguistica apparentemente plausibile e fluente. Il termine è usato metaforicamente: l’AI non ha coscienza né percezione, ma produce contenuti che sembrano coerenti pur essendo falsi. Non si tratta di un difetto occasionale: secondo ricercatori dell’Università di arXiv (2025), le allucinazioni sono un’emergenza inevitabile di qualsiasi modello generativo che tenti di produrre dati strutturati complessi.[^2][^7][^8][^9][^4]
La spiegazione geometrica è rigorosa: i modelli generativi imparano una mappatura da dati ad alta dimensionalità a rappresentazioni latenti. I dati reali si distribuiscono su sottospazi a bassa dimensione all’interno di uno spazio molto più grande. Quando il modello campiona regioni dello spazio latente non supportate dai dati di addestramento, il risultato è una allucinazione. L’enorme compressione dell’addestramento garantisce quasi matematicamente che molti output vengano generati in zone dove i dati forniscono poca guida.[^8]
2.2 Cause tecniche principali
Dati di addestramento incompleti o errati. I modelli vengono addestrati su corpus testuali che possono contenere informazioni errate, obsolete, incomplete o fortemente sbilanciate. La mancanza di aggiornamenti in tempo reale e l’assenza di selezione accurata delle fonti portano il modello a fare affidamento su dati imprecisi.[^10][^5][^2]
Assenza di sistemi di verifica integrati. Gli LLM producono testi sulla base di probabilità statistiche, senza effettuare confronti con fonti attendibili in tempo reale. Non dispongono di meccanismi di verifica incrociata autonoma: il modello non “sa” di aver sbagliato e non si autocorregge.[^9][^2]
Bias nel processo di addestramento. Se il dataset di addestramento contiene pregiudizi culturali, sociali o geografici, il modello apprende comportamenti incoerenti e produce risposte “allucinate” che riflettono tali distorsioni.[^5][^9]
Plausibilità locale vs. coerenza globale. I modelli generativi catturano dipendenze a breve raggio molto meglio di quelle a lungo raggio. Producono frasi localmente coerenti che falliscono a livello di argomento esteso o di struttura complessiva. Un LLM può produrre paragrafi geograficamente plausibili che si contraddicono a distanza di pochi capoversi.[^7]
3. Errori geografici specifici: le quattro categorie principali
3.1 L’assenza di ragionamento spaziale vero
La categoria di errore più fondamentale riguarda l’incapacità strutturale degli LLM di ragionare nello spazio geometrico. I modelli inferiscono la prossimità da descrizioni testuali, non dal calcolo delle distanze tramite coordinate geografiche e reti stradali. Due luoghi che appaiono spesso menzionati insieme in testi simili finiscono per avere embedding vicini nello spazio vettoriale del modello — anche se nella realtà geografica potrebbero essere a migliaia di chilometri di distanza.[^11][^6]
Uno studio del GDELT Project del 2025-2026 ha dimostrato che GPT-4, tra i modelli più avanzati disponibili, fallisce in modo consistente nella disambiguazione spaziale anche in casi elementari: il modello identificava correttamente le coordinate di due città ma poi, interrogato sulla direzione tra esse, forniva una risposta errata — incapace di utilizzare le stesse coordinate che aveva appena enunciato per calcolare la risposta corretta.[^12]
3.2 Il bias gerarchico spaziale (Hierarchical Spatial Bias)
Uno degli errori più documentati e sistematici è il bias gerarchico spaziale, identificato da ricercatori della Heidelberg University. Gli LLM tendono a inferire la posizione relativa di città basandosi sulla posizione relativa delle regioni o paesi che le contengono, anziché sulle coordinate reali. Questo rispecchia un errore cognitivo umano ben documentato in psicologia cognitiva (Tversky, 1992): gli esseri umani organizzano la memoria spaziale gerarchicamente, per stati e paesi.[^13]
Il caso emblematico è Portland-Toronto: Toronto si trova geograficamente a sud di Portland, Oregon. Eppure quasi tutti gli LLM (e molti esseri umani) rispondono che Toronto è a nord, perché il Canada si trova a nord degli Stati Uniti. In un benchmark di 14 domande di direzione intercardinalità condotto su GPT-3.5, GPT-4 e Llama-2, i risultati sono stati eloquenti:[^13] Categoria di domanda GPT-4 GPT-3.5 Llama-2 Senza bias gerarchico sospetto 85,7% 85,7% 88,6% Con bias gerarchico sospetto 32,9%15,7%7,1% Accuratezza complessiva 55,3% 47,3% 44,7%
GPT-4 — il modello più avanzato testato — commette errori nell’87% dei casi in cui entrano in gioco le gerarchie geografiche e la direzione reale va contro la percezione gerarchica. Il modello fallisce su Monaco ? Chicago (tutti i modelli 0/20 risposte corrette), su Reno vs. San Diego, su Toronto vs. Portland.[^13]
3.3 Disambiguazione toponimica fragile e instabile
Un’altra criticità grave è la disambiguazione dei toponimi: la capacità di determinare a quale luogo si riferisce un nome quando esistono molti luoghi con lo stesso nome. Negli USA ci sono almeno 11 città chiamate “Urbana”; in tutto il mondo migliaia di esempi simili. In teoria, gli LLM dovrebbero eccellere in questo compito avendo “visto” quasi ogni possibile frase contenente il termine “Paris” nei diversi contesti (France vs. Illinois). In pratica, la realtà è molto meno incoraggiante.[^14]
Il GDELT Project ha documentato nel 2025 una fragilità estrema: GPT-4 correttamente disambiguava “Champaign” come città dell’Ohio quando veniva detto che il soggetto non aveva mai lasciato l’Ohio — ma la stessa input, riformulato diversamente, faceva tornare il modello alla risposta default “Champaign, Illinois”. Perfino aggiungendo esplicitamente la distanza geografica (“24 miglia da una città dell’Ohio vs. 276 da Illinois”), GPT-4 continuava a localizzare il luogo in Illinois, incapace di ragionare che 24 miglia è molto più vicino di 276. La disambiguazione dipende quasi interamente dalla formulazione esatta della domanda, non dal ragionamento logico-spaziale.[^12][^14]
3.4 Bias occidentale e sottorappresentazione geografica
Gli LLM mostrano un forte bias verso regioni geografiche ben documentate in inglese e nelle lingue occidentali — specialmente USA, Europa occidentale, paesi anglosassoni. Le regioni meno documentate, come piccoli comuni, borghi rurali, aree montane o sotterranee, risultano poco o malamente rappresentate nei corpus di addestramento.[^15][^1]
Il GDELT Project ha riscontrato che LLM avanzati estraggono correttamente i nomi geografici di luoghi molto noti in copertura globale (media occidentale), ma falliscono miseramente nell’identificare nomi più localizzati meno presenti nel web anglofono — escludono perfino capitali come Mosca in alcune esecuzioni, con risultati diversi ad ogni run.[^15]
Lo studio WorldBench (ACM FAccT 2024) ha quantificato queste disparità confrontando le prestazioni degli LLM su domande di conoscenza fattuale relative a diversi paesi: gli errori erano significativamente più elevati per i paesi dell’Africa sub-sahariana rispetto al Nord America. Un’analisi separata su fact-checking geografico (arXiv 2025) ha confermato: tutti gli LLM testati mostrano performance peggiori per le affermazioni provenienti dal Global South — Africa, America Latina, Medio Oriente — con differenze statisticamente significative (p ? 0.01).[^16][^17]
4. Errori di prossimità: come gli LLM “stimano” le distanze
Il problema della prossimità è sottile ma pervasivo. Gli LLM deducono la “vicinanza” di due luoghi dalla frequenza con cui appaiono insieme in contesti simili nei testi di addestramento — non da calcoli geometrici. Due luoghi turisticamente famosi e spesso menzionati insieme (es. Roma e Firenze, o Parigi e Versailles) finiranno per avere embedding “vicini” nello spazio vettoriale del modello, il che porta il modello a considerarli “vicini” anche in risposta a domande geografiche dirette.[^11]
Il fenomeno “lost-in-distance“, documentato da Firooz et al. (2024-2025 in arXiv), evidenzia che la performance degli LLM su compiti che richiedono di ragionare su relazioni tra elementi distanti nel contesto degrada significativamente con l’aumentare della distanza tra i punti informativi rilevanti. Questo vale sia per grafi informativi astratti che — per estensione — per relazioni geografiche che dipendono da combinazioni di informazioni distribuite nel testo.[^18][^19]
Marzo 2025: ricercatori dell’Università di Toronto hanno testato 12 LLM principali chiedendo di elencare tutti i paesi confinanti con la Mongolia. Nove modelli su dodici hanno risposto con sicurezza che il Kazakhstan confina con la Mongolia, nonostante i due paesi non condividano alcun confine. I modelli si basavano su co-occorrenze testuali (“paesi dell’Asia centrale”, “ex repubbliche sovietiche vicine”) invece di verificare la topologia reale.[^20][^21]
5. Bias nei dati di addestramento: radici strutturali del problema
5.1 La geografia come specchio dell’internet
I dati su cui vengono addestrati gli LLM rispecchiano la distribuzione dell’informazione disponibile su internet e nelle biblioteche digitali — e questa distribuzione è profondamente squilibrata. Le nazioni con alta produzione editoriale digitale in inglese, francese, spagnolo e tedesco sono massivamente sovrarappresentate. Aree rurali, lingue minority, regioni povere o a bassa digitalizzazione sono sottorappresentate o del tutto assenti.[^22][^23]
La ricerca “Large Language Models are Geographically Biased” (arXiv, 2024) ha dimostrato che gli LLM mostrano bias sistematici in previsioni geospaziali oggettive, e che questi bias si correlano con indicatori socioeconomici — i modelli producono output sistematicamente peggiori per regioni con PIL pro capite più basso. In ambito di bias regionale pre-addestramento (HERB, arXiv 2022), i bias su gruppi regionali sono risultati fortemente influenzati dal clustering geografico: regioni percepite come “lontane” o “periferiche” nel corpus di addestramento ricevono trattamenti meno accurati.[^23][^24][^22]
5.2 Il problema della geografia dinamica
Anche dove i dati esistono, la geografia è in continua evoluzione: comuni che si accorpano o si scindono, infrastrutture nuove, modifiche dei confini amministrativi, rinumerazione delle strade, cambiamenti di denominazione. I modelli addestrati su dati con un certo anno di cutoff rispecchiano la realtà geografica di quell’anno — non quella attuale. Senza accesso a database aggiornati in tempo reale, l’AI rischia di fornire informazioni obsolete.[^1][^6]
5.3 Errori di correlazione linguistica e toponimi esteri
L’AI può commettere errori di correlazione linguistica: associare luoghi a paesi o regioni sbagliate semplicemente perché appaiono frequentemente insieme nei testi. La gestione di toponimi stranieri è particolarmente problematica quando i nomi sono omografi in lingue diverse (es. “Lima” può essere la capitale del Perù o una città in Ohio, Pennsylvania, Ohio…) o quando i nomi locali sono diversi dai nomi in lingua di addestramento.[^1]
Il GDELT Project ha documentato come gli LLM avanzati mostrino instabilità estrema nella estrazione geografica: la stessa identica domanda genera liste di luoghi diverse ad ogni esecuzione, include città che non erano menzionate nel testo originale (allucinazione di luoghi), e può escludere città capitali importanti come Mosca in modo del tutto casuale.[^15]
6. Implicazioni per la divulgazione scientifica specialistica
6.1 Il caso della speleologia
Nel contesto della divulgazione scientifica specialistica — come quella speleologica — le criticità geografiche degli LLM si manifestano in modi particolarmente insidiosi. Le grotte, i sistemi carsici, i massicci montuosi, i bacini idrografici sotterranei sono entità geografiche di per sé scarsamente rappresentate nei dati di addestramento: molto pochi testi digitali descrivono accuratamente la posizione di un abisso specifico, le sue relazioni topologiche con le grotte vicine, la sua appartenenza a un determinato sistema carsico.[^1]
Questo porta a errori tipici: confusione tra cavità con nomi simili, localizzazione errata di sistemi carsici (es. indicare una grotta in una regione sbagliata), allucinazione di distanze e relazioni tra ingressi, confusione tra sistema carsico e il comune administrativo o la montagna in cui si trova. La Scintilena ha documentato come tali allucinazioni si manifestino spesso in “piccoli particolari che possono sfuggire al controllo umano” — un dettaglio errato su una quota, una misura sbagliata, una relazione spaziale invertita.[^2][^1]
6.2 L’importanza del controllo umano esperto
In ambito divulgativo scientifico, l’accuratezza delle informazioni è fondamentale per garantire la fiducia dei lettori e la sicurezza degli esploratori. Le allucinazioni geografiche nei testi speleologici possono avere conseguenze concrete: informazioni errate su percorsi, ingressi, pericoli idrologici o relazioni tra cavità. L’approccio più corretto è un sistema ibrido dove l’AI accelera la produzione di bozze e sintesi, ma un controllo umano esperto verifica sistematicamente tutti i dati geografici prima della pubblicazione.[^2]
7. Dati quantitativi sul tasso di allucinazione
Il tasso di allucinazione varia significativamente tra modelli e tipologie di compito: Modello Tasso generale (2025) Contesto di misurazione Google Gemini-2.0-Flash-001 0,7% Benchmark Vectara (riassunti) Google Gemini-2.0-Pro-Exp 0,8% Benchmark Vectara OpenAI o3-mini-high 0,8% Benchmark Vectara GPT-4o 1,5% Benchmark Vectara Claude 3.5 Sonnet 4,4% Benchmark Vectara Claude 3 Opus 10,1% Benchmark Vectara Media su tutti i modelli ~9,2% Conoscenza generale OpenAI o3 (reasoning) 33% Domande su persone specifiche OpenAI o4-mini (reasoning) 48% Domande su persone specifiche
[^25][^3]
I dati mostrano un paradosso inquietante: i modelli di “reasoning” avanzato — progettati per ragionare meglio — mostrano tassi di allucinazione ben peggiori su domande specifiche. Le perdite economiche globali legate alle allucinazioni AI hanno raggiunto 67,4 miliardi di dollari nel 2024, e il 47% dei dirigenti d’azienda ha preso almeno una decisione importante basandosi su contenuti AI poi rivelatisi falsi.[^3]
8. Soluzioni e strategie di mitigazione
8.1 Retrieval-Augmented Generation (RAG)
La tecnica più efficace ad oggi è la Retrieval-Augmented Generation (RAG), che riduce le allucinazioni del 71% se implementata correttamente. Il RAG non si affida esclusivamente alla conoscenza parametrica del modello, ma integra in tempo reale documenti recuperati da database affidabili e aggiornati. Per applicazioni geografiche, questo significa collegare il modello a gazetteers, database GIS, OpenStreetMap o altri sistemi cartografici.[^21][^20][^25]
8.2 Integrazione con motori GIS esterni
Diversi studi identificano l’integrazione degli LLM con motori GIS esterni come la strada più promettente per i compiti che richiedono precisione spaziale. Il modello gestisce l’interpretazione del linguaggio naturale dell’utente e la comunicazione dei risultati, mentre calcoli di distanza, buffer, routing e relazioni topologiche vengono delegati a sistemi computazionali deterministici (es. QGIS, ArcGIS, PostGIS, HERE, Google Maps API). Questo approccio combina i punti di forza di entrambe le tecnologie.[^6][^13]
8.3 Modelli specializzati per dominio geografico
Ricerche del GDELT Project hanno dimostrato che piccoli modelli compatti addestrati specificamente sul dominio geografico superano sistematicamente modelli generali molto più grandi per compiti di geocoding e disambiguation. Un modello da pochi miliardi di parametri addestrato su corpus geografici curati, gazetteers e dati georeferenziati produce risultati più affidabili di GPT-4 nelle applicazioni geografiche specializzate.[^14]
8.4 Architetture multimodali e location encoders
Una direzione di ricerca promettente è l’introduzione di location encoders — funzioni neurali che convertono coordinate geografiche in embedding direzionali preservando distanza, direzione e contesto spaziale. Questo tenterebbe di “tokenizzare” i dati spaziali in modo che gli LLM possano leggerli come testo arricchito di struttura geometrica. Tuttavia, gli esperti avvertono che anche con embedding migliori, gli LLM non sono motori spaziali e non possono unire poligoni, bufferizzare linee costiere o filtrare raster per valori di pixel.[^26]
8.5 Alta qualità dei dati di addestramento
Come indicato dalla ricerca di Heidelberg University, poiché il bias gerarchico spaziale deriva almeno in parte direttamente da errori e semplificazioni nelle descrizioni di entità geografiche nei dati di addestramento, dati di alta qualità con descrizioni dettagliate possono migliorare la performance del modello. Il modello può anche essere addestrato direttamente sulle relazioni spaziali di interesse, per migliorare sia la memoria che la capacità di inferenza su relazioni non note.[^13]
9. Prospettive future e limiti irreducibili
La ricerca teorica indica che le allucinazioni nei modelli generativi non sono un problema che scomparirà con il semplice aumento della scala del modello o dei dati di addestramento. Come argomentato in uno studio arXiv del 2025, anche massivi aumenti nella quantità di dati di addestramento non elimineranno le allucinazioni di tipo strutturale, poiché queste derivano da proprietà geometriche intrinseche degli spazi latenti ad alta dimensionalità.[^8]
Il problema del ragionamento spaziale geografico richiede probabilmente soluzioni architetturali fondamentalmente diverse: sistemi ibridi neuro-simbolici, integrazione con motori computazionali specializzati, o architetture multimodali che integrino mappe e immagini satellitari come modalità di input accanto al testo. Proposte come il Geospatial Awareness Layer (GAL) — che ancora agenti LLM in dati strutturati della Terra (terreno, infrastrutture, dati demografici, meteo) — rappresentano tentativi concreti di superare il gap tra ragionamento linguistico e intelligenza spaziale reale.[^27]
L’evoluzione verso sistemi ibridi dove automazione e controllo umano si integrano — e dove le limitazioni geografiche degli LLM sono note e gestite — rappresenta la strada più realistica per un utilizzo affidabile dell’AI generativa in contesti dove la precisione geografica è criticamente importante
Immagina un armadio gigantissimo
Quando un’AI impara, è come se riempisse un armadio enorme — grande come un palazzo — con milioni di cassetti. In ogni cassetto mette un “pezzo di conoscenza” preso dai testi che ha letto: un fatto su Roma, una ricetta, la storia di un personaggio, la posizione di una città…
Il problema è che i cassetti sono tantissimi — miliardi — e i fatti veri che ha imparato riempiono solo una piccola parte di tutti quei cassetti.
Cosa succede quando le viene fatta una domanda?
Quando le fai una domanda, l’AI non va a cercare la risposta giusta in un libro o su internet. Invece, apre i cassetti più vicini a quello che hai chiesto e combina quello che trova lì dentro.
Se la domanda cade esattamente su un cassetto che ha dati veri ? risposta giusta
Ma se la domanda cade su uno dei miliardi di cassetti vuoti o quasi vuoti… l’AI non dice “non lo so”. Invece inventa qualcosa di plausibile, combinando pezzi dai cassetti vicini. Il risultato sembra giusto, suona bene — ma è falso. Questa è un’allucinazione.
Perché “inevitabile”?
Perché i cassetti vuoti ci saranno sempre. Non importa quanto grande sia l’armadio o quanti libri l’AI abbia letto: ci saranno sempre zone dell’armadio dove non è arrivata abbastanza informazione. È una questione matematica — come dire che in una biblioteca grandissima ci saranno sempre degli scaffali polverosi che nessuno ha ancora riempito bene.
Quindi non è che gli ingegneri hanno fatto un errore: è che la struttura stessa del sistema — quegli spazi latenti ad alta dimensionalità, cioè quell’armadio enorme — contiene per forza delle zone buie dove l’AI “brancola nel buio” e inventa.
In sintesi: l’AI non mente apposta. Semplicemente, quando non sa una cosa, non si ferma — riempie il vuoto con la risposta più probabile, anche se è sbagliata. Ed è impossibile eliminare completamente tutti i vuoti. ??
Fonti
Conclusioni
Le AI generative falliscono in geografia per ragioni profonde e strutturali: non sono progettate per il ragionamento spaziale, ma per la previsione testuale. I loro bias geografici riflettono squilibri nei dati di addestramento, errori cognitivi umani codificati nei testi, l’impossibilità intrinseca di calcolare distanze e orientamenti senza computazione geometrica. Il bias gerarchico spaziale porta GPT-4 a sbagliare nell’87% dei casi di domande con tensione tra gerarchia e realtà geografica; la disambiguazione toponimica è fragile e dipende dalla formulazione esatta; il Global South è sistematicamente penalizzato; e anche i modelli più avanzati allucinano luoghi con sicurezza.[^17][^20][^16][^12][^15][^13]
La consapevolezza di questi limiti — unita all’adozione di strategie di mitigazione come RAG, integrazione GIS e controllo umano esperto — è il primo e più importante passo verso un utilizzo responsabile ed efficace dell’intelligenza artificiale generativa in tutti i contesti dove la precisione geografica è non negoziabile: dalla divulgazione speleologica alla gestione delle emergenze, dalla pianificazione territoriale alla ricerca scientifica sul campo.
References
- Intelligenza Artificiale bocciata in geografia. Perché l’IA è … – ## L’intelligenza artificiale e le difficoltà con dati geografici, luoghi e regioni
L’uso dell’inte…
- Allucinazioni nei Testi Generati dall’IA: Limiti e Prospettive … – ## Ricercatori analizzano le cause e le possibili soluzioni per ridurre la produzione di informazion…
- AI Hallucination Statistics: Research Report 2026 – Suprmind – The data reveals a critical insight that most AI users miss: hallucination is not an occasional bug …
- Cosa sono le allucinazioni dell’AI? – La generative AI è uno strumento entusiasmante che oggi chiunque può usare. Tuttavia, presenta delle…
- Che cosa sono le allucinazioni dell’AI? | IBM – Le allucinazioni basate su AI si verificano quando un modello linguistico di grandi dimensioni (LLM)…
- Why LLMs understand language but not space – HERE Technologies – This is happening because the model is inferring proximity from textual descriptions, not calculatin…
- Hallucination, reliability, and the role of generative AI in science – arXiv
- Hallucination, reliability, and the role of generative AI in science
- ChatGPT e AI generative creator: cosa sono le “allucinazioni”?www.moxoff.com › chatgpt-ai-generative-creator-cosa-sono-le-allucinazioni – Un AI generative creator è un tipo di sistema di intelligenza artificiale che ha la capacità di gene…
- Cosa sono le allucinazioni AI? – Google Cloudcloud.google.com › discover › what-are-ai-hallucinations – Le allucinazioni dell’AI possono verificarsi quando i modelli linguistici di grandi dimensioni (LLM)…
- How LLMs Interpret Proximity Without GPS – Single Grain – Proximity LLM behavior can look uncanny when a model tells you what is “near” something despite neve…
- The Inability Of Advanced LLMs Like GPT-4 To Reason Spatially – Toponymic disambiguation is exceptionally brittle using advanced LLMs like GPT-4. In some formulatio…
- Distortions in Judged Spatial Relations in Large Language Models1
- Generative AI Experiments: Why LLM-Based Geocoders Struggle – Over the past two days we’ve explored how advanced LLMs like GPT 4.0 struggle significantly with bot…
- The Surprisingly Poor Performance Of LLM-Based …
- WorldBench: Quantifying Geographic Disparities in LLM Factual Recall – …models work reliably for all, we seek to uncover if geographic disparities emerge when asking an …
- [PDF] Understanding Inequality of LLM Fact-Checking over Geographic … – The underrepresentation of the Global South, across almost all scenarios and models, points to a sig…
- Impact of Contextual Proximity on LLM Performance in Graph Tasks – The findings reveal that LLMs display notable performance reduction as the contextual distance betwe…
- Impact of Contextual Proximity on LLM Performance in Graph Tasks – Our experiments reveal that as the distance between crucial data points increases, the accuracy of p…
- Rapporto sulle Allucinazioni dell’AI 2025 – AllAboutAI – Confronta i principali LLM del 2025 in base al tasso di allucinazioni AI. Scopri i modelli più accur…
- AI Hallucination Report 2026: Which AI Hallucinates the Most? – Compare top LLMs in 2026 by AI hallucination rate. Discover the most accurate AI models from OpenAI,…
- Large Language Models are Geographically Biased – …LLMs know about the world we live in through the lens of geography. This
approach is particularly…
- Large Language Models are Geographically Biased
- HERB: Measuring Hierarchical Regional Bias in Pre-trained Language Models – …as genders and
religions. However, regional bias in language models (LMs), a long-standing
global…
- AI Hallucination Rates Across Different Models 2026 – Google’s Gemini-2.0-Flash-001 recorded a hallucination rate of just 0.7% on Vectara’s benchmark as o…
- Why LLMs struggle with spatial data and how to fix it – LinkedIn – Why? Because spatial data is continuous, directional, hierarchical, and is tied to geometries that d…
- Do LLMs Have Geospatial Intelligence? Exploring Their Abilities in … – This analysis reveals both the spatial reasoning capabilities and systematic geographic biases in LL…
Fonti
[1] Intelligenza Artificiale bocciata in geografia. Perché l’IA è … https://www.scintilena.com/intelligenza-artificiale-bocciata-in-geografia-perche-lia-e-totalmente-inaffidabile-con-dati-geografici-e-come-migliorare-i-prompt-per-risultati-meno-disastrosi/07/15/
[2] Allucinazioni nei Testi Generati dall’IA: Limiti e Prospettive … https://www.scintilena.com/allucinazioni-nei-testi-generati-dallia-limiti-e-prospettive-nella-generazione-linguistica/02/07/
[3] AI Hallucination Statistics: Research Report 2026 – Suprmind https://suprmind.ai/hub/insights/ai-hallucination-statistics-research-report-2026/
[4] Cosa sono le allucinazioni dell’AI? https://www.sas.com/it_it/insights/articles/analytics/what-are-ai-hallucinations.html
[5] Che cosa sono le allucinazioni dell’AI? | IBM https://www.ibm.com/it-it/think/topics/ai-hallucinations
[6] Why LLMs understand language but not space – HERE Technologies https://www.here.com/learn/blog/llm-spatial-reasoning-vs-language-prediction
[7] Hallucination, reliability, and the role of generative AI in science – arXiv https://arxiv.org/html/2504.08526v1
[8] Hallucination, reliability, and the role of generative AI in science https://arxiv.org/pdf/2504.08526v2.pdf
[9] ChatGPT e AI generative creator: cosa sono le “allucinazioni”?www.moxoff.com › chatgpt-ai-generative-creator-cosa-sono-le-allucinazioni https://www.moxoff.com/chatgpt-ai-generative-creator-cosa-sono-le-allucinazioni/
[10] Cosa sono le allucinazioni AI? – Google Cloudcloud.google.com › discover › what-are-ai-hallucinations https://cloud.google.com/discover/what-are-ai-hallucinations?hl=it
[11] How LLMs Interpret Proximity Without GPS – Single Grain https://www.singlegrain.com/local/how-llms-interpret-proximity-without-gps/
[12] The Inability Of Advanced LLMs Like GPT-4 To Reason Spatially https://blog.gdeltproject.org/generative-ai-experiments-the-inability-of-advanced-llms-like-gpt-4-to-reason-spatially/
[13] Distortions in Judged Spatial Relations in Large Language Models1 https://arxiv.org/pdf/2401.04218.pdf
[14] Generative AI Experiments: Why LLM-Based Geocoders Struggle https://blog.gdeltproject.org/generative-ai-experiments-why-llm-based-geocoders-struggle/
[15] The Surprisingly Poor Performance Of LLM-Based … https://blog.gdeltproject.org/generative-ai-experiments-the-surprisingly-poor-performance-of-llm-based-geocoders-geographic-bias-why-gpt-3-5-gemini-pro-outperform-gpt-4-0-in-underrepresented-geographies/
[16] WorldBench: Quantifying Geographic Disparities in LLM Factual Recall https://dl.acm.org/doi/pdf/10.1145/3630106.3658967
[17] [PDF] Understanding Inequality of LLM Fact-Checking over Geographic … https://arxiv.org/pdf/2503.22877.pdf
[18] Impact of Contextual Proximity on LLM Performance in Graph Tasks https://www.themoonlight.io/en/review/lost-in-distance-impact-of-contextual-proximity-on-llm-performance-in-graph-tasks
[19] Impact of Contextual Proximity on LLM Performance in Graph Tasks https://arxiv.org/html/2410.01985v2
[20] Rapporto sulle Allucinazioni dell’AI 2025 – AllAboutAI https://www.allaboutai.com/it-it/risorse/statistiche-ia/allucinazioni-ai/
[21] AI Hallucination Report 2026: Which AI Hallucinates the Most? https://www.allaboutai.com/resources/ai-statistics/ai-hallucinations/
[22] Large Language Models are Geographically Biased https://arxiv.org/pdf/2402.02680.pdf
[23] Large Language Models are Geographically Biased https://axi.lims.ac.uk/paper/2402.02680
[24] HERB: Measuring Hierarchical Regional Bias in Pre-trained Language
Models http://arxiv.org/pdf/2211.02882.pdf
[25] AI Hallucination Rates Across Different Models 2026 https://www.aboutchromebooks.com/ai-hallucination-rates-across-different-models/
[26] Why LLMs struggle with spatial data and how to fix it – LinkedIn https://www.linkedin.com/posts/mbforr_why-llms-struggle-with-spatial-data-and-activity-7333131663285100545-AvlP
[27] Do LLMs Have Geospatial Intelligence? Exploring Their Abilities in … https://luma.com/2f1z1zk8
[30] Acque sotterranee negli Stati Uniti: una nuova mappa ad alta … https://www.scintilena.com/acque-sotterranee-negli-stati-uniti-una-nuova-mappa-ad-alta-risoluzione/02/16/
[31] Realtà Virtuale nella Speleologia: L’Eremo di San Bernabé a Ojo … https://www.scintilena.com/realta-virtuale-nella-speleologia-leremo-di-san-bernabe-a-ojo-guarena-apre-le-sue-porte/09/01/
[32] Mappe dall’Oscurità: come nasce la cartografia del mondo sotterraneo https://www.scintilena.com/mappe-dalloscurita-come-nasce-la-cartografia-del-mondo-sotterraneo-3/04/25/
[33] Espeleo Canyoning Cinema ASEDEB 2026: il festival di … – Scintilena https://www.scintilena.com/espeleo-canyoning-cinema-asedeb-2026-il-festival-di-cinema-di-speleologia-e-canyoning-arriva-a-malaga/03/03/
[34] AlphaEarth Foundations: intelligenza artificiale e … https://www.scintilena.com/alphaearth-foundations-intelligenza-artificiale-e-mappatura-globale-verso-una-nuova-era-dellosservazione-ambientale/07/31/
[35] 12°esimo simposio internazionale di soccorso speleologico in Bulgaria: Com’è andata – Scintilena https://www.scintilena.com/12%C2%B0esimo-simposio-internazionale-di-soccorso-speleologico-in-bulgaria-come-andata/05/16/
[36] Olena Godlevska, la scienziata che ha portato i pipistrelli … https://www.scintilena.com/olena-godlevska-la-scienziata-che-ha-portato-i-pipistrelli-ucraini-fuori-dalloscurita/03/09/
[37] Le Grotte della Groenlandia: Archivi Paleoclimatici e … https://www.scintilena.com/le-grotte-della-groenlandia-archivi-paleoclimatici-e-frontiera-della-glaciospeleologia/01/16/
[38] Incidenti in speleologia subacquea: il libro di Michel Ribera analizza … https://www.scintilena.com/incidenti-in-speleologia-subacquea-il-libro-di-michel-ribera-analizza-decenni-di-dati-e-svela-i-meccanismi-fatali/02/21/
[39] 450 Metri di Buio e Sangue: La Grotta Che Sfidò il Mondo Nel 1925 … https://www.scintilena.com/450-metri-di-buio-e-sangue-la-grotta-che-sfido-il-mondo-nel-1925-e-continua-a-sorprenderci/01/26/
[40] Biofilm acidi nelle grotte sulfuree: comunità microbiche … https://www.scintilena.com/biofilm-acidi-nelle-grotte-sulfuree-comunita-microbiche-convergenti-su-scala-globale/03/11/
[41] Tecnologia Speleologica: I Nuovi Strumenti per Esplorare le Grotte https://www.scintilena.com/tecnologia-speleologica-i-nuovi-strumenti-per-esplorare-le-grotte/08/21/
[42] Lascaux: Quando il Patrimonio Paleolitico Incontra la … https://www.scintilena.com/lascaux-quando-il-patrimonio-paleolitico-incontra-la-fragilita-dellambiente-carsico/01/20/
[43] Artificial intelligence hallucinations in anaesthesia: Causes, consequences and countermeasures https://pmc.ncbi.nlm.nih.gov/articles/PMC11285881/
[44] Wireless Hallucination in Generative AI-enabled Communications:
Concepts, Issues, and Solutions http://arxiv.org/pdf/2503.06149.pdf
[45] AI Hallucinations: A Misnomer Worth Clarifying https://arxiv.org/pdf/2401.06796.pdf
[46] Artificial intelligence hallucinations https://pmc.ncbi.nlm.nih.gov/articles/PMC10170715/
[47] [PDF] Experiments on Probing LLMs for Geographic Knowledge and … https://ceur-ws.org/Vol-3969/paper7.pdf
[48] Virtual Imaginative Geographies: Generative AI and the Representation of Landscape Imagery https://www.pure.ed.ac.uk/ws/portalfiles/portal/498267793/Bell2025GeographiesGenAI.pdf
[49] When AI Goes Wrong in Spatial Reasoning – Geography Realm https://www.geographyrealm.com/when-ai-goes-wrong-in-spatial-reasoning/
[50] Understanding (a bit about) hallucinations in Generative AI https://www.youtube.com/watch?v=bXk-S4jCzW0
[51] La Sicilia ospiterà la Conferenza Internazionale “Man and Karst 2024” – Scintilena https://www.scintilena.com/la-sicilia-ospitera-la-conferenza-internazionale-man-and-karst-2024/12/07/
[52] Dal cuore della Grigna: cronaca diretta del 23° Campo InGrigna! 2025 https://www.scintilena.com/si-e-concluso-il-16-agosto-2025-il-23campo-ingrigna/08/21/
[53] Luigi Casati riceve il Premio Duilio Marcante 2025 – Scintilena https://www.scintilena.com/luigi-casati-riceve-il-premio-duilio-marcante-2025/02/17/
[54] National Cave and Karst Management Symposium 2025 https://www.scintilena.com/national-cave-and-karst-management-symposium-2025-un-appuntamento-cruciale-per-la-speleologia-mondiale/09/01/
[55] GORGAZZO – POLCENIGO 2025: https://www.scintilena.com/gorgazzo-polcenigo-2025/08/29/
[56] Gli articoli più visti del 2024 su Scintilena https://www.scintilena.com/gli-articoli-piu-visti-del-2024-su-scintilena/01/03/
[57] Notte Internazionale dei Pipistrelli 2025: Grande … https://www.scintilena.com/notte-internazionale-dei-pipistrelli-2025-grande-mobilitazione-per-la-conservazione-dei-chirotteri/08/30/
[58] On Line il Programma del Raduno Nazionale di Speleologia https://www.scintilena.com/on-line-il-programma-del-raduno-nazionale-di-speleologia-caselle-in-pittari-siphonia-2024/10/12/
[59] Speleologia in Lombardia: echi dal 28° Raduno Regionale di Brinzio – 1 e 2 marzo 2025 – Scintilena https://www.scintilena.com/speleologia-in-lombardia-echi-dal-28-raduno-regionale-di-brinzio-1-e-2-marzo-2025/03/05/
[60] Aria Sotterranea e Vuoti Irraggiungibili: Il Viaggio del Vento nella … https://www.scintilena.com/aria-sotterranea-e-vuoti-irraggiungibili-il-viaggio-del-vento-nella-montagna-di-santa-croce/01/06/
[61] Are Large Language Models Geospatially Knowledgeable? https://dl.acm.org/doi/pdf/10.1145/3589132.3625625
[62] Evaluation of Geographical Distortions in Language Models: A Crucial
Step Towards Equitable Representations http://arxiv.org/pdf/2404.17401.pdf
[63] Towards Understanding the Geospatial Skills of ChatGPT: Taking a Geographic Information Systems (GIS) Exam https://dl.acm.org/doi/pdf/10.1145/3615886.3627745
[64] Can Large Language Models be Good Path Planners? A Benchmark and
Investigation on Spatial-temporal Reasoning https://arxiv.org/pdf/2310.03249.pdf
[65] Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs https://arxiv.org/pdf/2411.18564v1.pdf
[66] Correctness Comparison of ChatGPT-4, Gemini, Claude-3, and Copilot for
Spatial Tasks https://arxiv.org/pdf/2401.02404.pdf
[67] Evidence for Systematic Bias in the Spatial Memory of Large … https://giscienceblog.uni-heidelberg.de/2024/05/27/evidence-for-systematic-bias-in-the-spatial-memory-of-large-language-models/
[68] Coordinates from Context: Using LLMs to Ground Complex Location … https://arxiv.org/html/2510.08741v1
[69] JOURNAL OF SPATIAL INFORMATION SCIENCE https://www.cs.cmu.edu/~gelern/pdfs/geocoding.pdf
[70] Large Language Models: Testing Their Capabilities to Understand and Explain Spatial Concepts https://drops.dagstuhl.de/storage/00lipics/lipics-vol315-cosit2024/LIPIcs.COSIT.2024.31/LIPIcs.COSIT.2024.31.pdf
[71] Large Language Models for Geolocation Extraction in Humanitarian … https://arxiv.org/html/2602.08872v1
[72] Tecnologie mobili e rilievo ipogeo: strumenti, esperienze e confronti nel prossimo webinar dei “Mercoledì Catastali” della Commissione Catasto Cavità Naturali SSI https://www.scintilena.com/tag/lidar/feed/
[73] Speleologia in Campo dei Fiori: Mitragliatore e Pistole … https://www.scintilena.com/speleologia-in-campo-dei-fiori-mitragliatore-e-pistole-nascoste-in-una-grotta/01/26/
[74] Progetto Sebino, denti e ossa di orso delle caverne emergono dal … https://www.scintilena.com/progetto-sebino-denti-e-ossa-di-orso-delle-caverne-emergono-dal-fango-dellabisso-di-bueno-fonteno/03/08/
[75] InDEPTH Magazine: il numero di marzo 2026 tra archeologia … https://www.scintilena.com/indepth-magazine-il-numero-di-marzo-2026-tra-archeologia-subacquea-alle-egadi-grotte-sommerse-e-immersioni-tecniche/03/07/
[76] La newsletter BCRA di marzo 2026 annuncia workshop, escursioni … https://www.scintilena.com/ora-ho-raccolto-informazioni-sufficienti-per-scrivere-larticolo-procedo-con-la-stesura/03/05/
[77] Mauro Kraus eletto presidente della Federazione Speleologica del Friuli … https://www.scintilena.com/mauro-kraus-eletto-presidente-della-federazione-speleologica-del-friuli-venezia-giulia-il-nuovo-direttivo-2026-2028/03/01/
[78] Convegno: Cavità di origine antropica, modalità d’indagine, aspetti … https://www.scintilena.com/convegno-cavita-di-origine-antropica-modalita-dindagine-aspetti-di-catalogazione-analisi-della-pericolosita-monitoraggio-e-valorizzazione/11/28/
[79] Complesso carsico Bueno Fonteno-Nueva Vida: 750 metri di nuove … https://www.scintilena.com/complesso-carsico-bueno-fonteno-nueva-vida-750-metri-di-nuove-gallerie-esplorati-in-una-sola-giornata/03/03/
[80] Monitoraggio biologico nelle grotte. censiti pipistrelli tricolore … https://www.scintilena.com/pero-gli-americani-fanno-anche-cose-buone/03/04/
[81] A Kranj il 19° Incontro Europeo del Soccorso Speleologico – Scintilena https://www.scintilena.com/a-kranj-il-19-incontro-europeo-del-soccorso-speleologico/04/26/
[82] La Ruta de las Alas e Refugio IKA: il corridoio di grotte che … https://www.scintilena.com/la-ruta-de-las-alas-e-refugio-ika-il-corridoio-di-grotte-che-puo-salvare-un-pipistrello-fantasma/02/06/
[83] Editorial https://www.icaseonline.net/journal/index.php/sei/article/view/882
[84] Tackling Bias in Pre-trained Language Models: Current Trends and
Under-represented Societies https://arxiv.org/pdf/2312.01509.pdf
[85] Fairness in LLM-Generated Surveys http://arxiv.org/pdf/2501.15351.pdf
[86] Where Are We? Evaluating LLM Performance on African Languages https://arxiv.org/html/2502.19582v1
[87] How Geographic Origin Influences LLMs’ Entity Deduction Capabilities https://openreview.net/forum?id=hJtvCfDfs1¬eId=Z84uEMzjYI
[88] AI Hallucinations Nearly Double — Here’s Why They’re Getting … https://www.vktr.com/ai-technology/ai-hallucinations-nearly-double-heres-why-theyre-getting-worse-not-better/
[89] Reducing hallucination in structured outputs via Retrieval … https://arxiv.org/abs/2404.08189
[90] Detecting Hallucinations in Retrieval-Augmented Generation via … https://arxiv.org/abs/2601.03052
[91] How to Prevent AI Hallucinations with Retrieval Augmented … https://www.itconvergence.com/blog/how-to-overcome-ai-hallucinations-using-retrieval-augmented-generation/
[92] Real human data from South Africa to finetune your LLM models https://www.geopoll.com/real-human-data-from-south-africa-to-finetune-your-llm-models/
[93] Reducing Hallucinations in Clinical LLMs Using Retrieval … https://www.makebot.ai/blog-en/clinical-llm-rag-hallucination-mitigation
[94] How Geographic Origin Influences LLMs’ Entity Deduction Capabilities https://arxiv.org/html/2508.05525v1
[95] Are AI Hallucinations Getting Better or Worse? We Analyzed the Data https://www.scottgraffius.com/blog/files/ai-hallucinations-2026.html
[96] Understanding Retrieval Augmented Generation (RAG). A response … https://www.ontoforce.com/blog/understanding-retrieval-augmented-generation-rag.-a-response-to-hallucinations
L'articolo Perché le AI Generative Falliscono in Geografia: Errori di Localizzazione, Prossimità e Allucinazioni proviene da Scintilena.