AI / Knowledge management · 2026

UltraMind

Sistema RAG personalizzato che risponde solo su contenuti approvati dal cliente. Back-office per caricare, validare e versionare la knowledge base; API e widget per esporre l'assistente sui canali del cliente.

94%

Accuratezza risposte validate

-60%

Riduzione ticket ripetitivi

2k+

Documenti indicizzati

<2s

Tempo medio risposta

Il contesto

Il cliente aveva il problema opposto a quello più discusso in tema AI: non voleva un LLM che “sapesse tutto”, ma un assistente che sapesse solo quello che gli veniva approvato. Il materiale era già prodotto (manuali, procedure, documentazione interna), ma disperso su sharepoint, PDF e wiki, e l’accesso richiedeva tempo.

La sfida

Tre vincoli forti, non negoziabili:

Zero allucinazioni accettate. Se la risposta non è supportata da contenuto indicizzato, l’assistente deve rifiutare educatamente — non inventare.
Tracciabilità. Ogni risposta deve citare le fonti (titolo documento, paragrafo, data).
Governance redazionale. I contenuti non devono essere “buttati nel vettore” una tantum: servono approvazione, versioning, ritiro.

In più, il cliente voleva distribuire l’assistente in più contesti (portale interno, chat su Slack, widget sul sito clienti) senza duplicare logiche.

Cosa ho costruito

Back-office Filament per la redazione: caricamento documenti, preview del chunking, approvazione granulare (paragrafo per paragrafo), versioning, tag e permessi.

Pipeline di indicizzazione controllata: quando un contenuto viene approvato, viene automaticamente chunkato con strategie diverse a seconda del tipo (manuale → chunking gerarchico, FAQ → uno a uno, procedura → step-based), vettorializzato e scritto in pgvector.

Motore RAG custom con:

Retrieval ibrido (embedding + keyword + filtri metadata).
Re-ranking con cross-encoder prima della generazione.
Prompt engineering esplicito che obbliga a rispondere con "Non ho informazioni sufficienti" quando la similarity score non supera una soglia configurabile per tenant.
Citazione obbligatoria delle fonti nel output.

API e widget distribuibili: una sola API REST espone l’assistente, consumata sia dal portale interno sia dal widget embeddabile sui siti esterni.

Risultati

Dopo i primi mesi di produzione, l’assistente risponde su circa 2.000 documenti indicizzati con un’accuratezza validata del 94% su un set di test interno. I ticket ripetitivi sul customer care sono calati del 60%. Il tempo medio di risposta è sotto i 2 secondi.

Tecnologie che hanno fatto la differenza

pgvector su PostgreSQL ha evitato di introdurre un vector store dedicato: la stessa istanza DB gestisce metadata relazionali, versioning e similarity search.
Filament per il back-office editoriale ha reso produttivo il team redazione fin da subito, senza training.
Il prompt engineering “difensivo” (refuse-by-default) si è rivelato più efficace di qualunque model fine-tuning per l’obiettivo “zero allucinazioni”.