- Imparerai Newsletter
- Posts
- La "Voice Mode" crea dipendenza?
La "Voice Mode" crea dipendenza?
Perplexity cresce, Gemini costa meno e l'AGI si avvicina..
Le tue "Razioni" di AI 🥫
📰 News della settimana
0.1 Perplexity risponde a 250 milioni di domande al mese, mostrando un crescente appetito per la ricerca AI.
Perplexity ha visto un significativo aumento di utenti il mese scorso, rispondendo a circa 250 milioni di domande secondo Dmitry Shevelenko, Chief Business Officer dell'azienda. In confronto, in tutto il 2023 sono state elaborate 500 milioni di query.
Perplexity utilizza l'intelligenza artificiale per rispondere alle query di ricerca, promettendo risultati più precisi e contestualmente rilevanti rispetto alle ricerche convenzionali basate sulle parole chiave. Anche i giganti del settore come Google e Microsoft stanno iniziando a fornire soluzioni di ricerca basate sull'AI e recentemente anche OpenAI è entrata in questo settore annunciando SearchGPT.

Una sfida enorme: competere con Google
Nonostante la crescita, Perplexity rimane molto indietro rispetto al leader di mercato Google, che domina il settore da anni con una quota di mercato globale stimata di oltre il 90% e gestisce circa 8,5 miliardi di query al giorno.
Tuttavia, la crescita di Perplexity potrebbe essere un indicatore del fatto che gli utenti stanno sempre più cercando alternative che utilizzano moderne tecnologie di AI. L'integrazione dei sistemi di AI nella ricerca su Internet potrebbe cambiare permanentemente il comportamento degli utenti e mettere in discussione i modelli di business consolidati.
Sulla strada per diventare un grande nome nella ricerca, Perplexity deve affrontare una sfida: Google, ovviamente. Il colosso di Mountain View ha enormi risorse finanziarie e quantità di dati che gli consentono di migliorare continuamente le proprie capacità relative ai propri sistemi di Intelligenza Artificiale.
Critiche per il "content scraping" e il programma per gli editori
Perplexity recentemente è stato anche oggetto di critiche, perché il modello trova i contenuti sul web e li visualizza all’interno delle conversazioni o all'interno delle "Pages" generate dagli utenti, causando la perdita di traffico per siti web e blog dai quali provengono le informazioni. In risposta, Perplexity ha recentemente lanciato il "Perplexity Publishers' Program", in cui i contenuti di editori selezionati vengono visualizzati in modo più prevalente rispetto ad altri contenuti e gli editori in cambio condividono parte delle entrate pubblicitarie. Tuttavia, gli editori più piccoli o i siti web, come con Google, rimangono a mani vuote.
L'integrazione dell'intelligenza artificiale nei motori di ricerca potrebbe rivoluzionare il modo in cui cerchiamo informazioni online, ma solleva anche interrogativi sul futuro dei contenuti web e sui modelli di business dei motori di ricerca tradizionali.
Tu cosa ne pensi? Hai già provato Perplexity o altri motori di ricerca AI?
0.2 SingularityNET punta all'intelligenza artificiale di livello umano con una rete di supercomputer
I ricercatori di SingularityNET pianificano di accelerare lo sviluppo dell'intelligenza artificiale generale (AGI) con una rete mondiale di computer estremamente potenti, a partire da un nuovo supercomputer che entrerà in funzione a settembre.
Dai sistemi di AI specifici all'AGI: un salto di qualità
L'intelligenza artificiale comprende tecnologie come l'apprendimento automatico e i sistemi di AI generativa come GPT-4. Questi ultimi offrono un ragionamento predittivo basato sull'addestramento da un ampio set di dati e spesso possono superare le capacità umane in un'area particolare, in base ai loro dati di addestramento. Tuttavia, sono inferiori nei compiti cognitivi o di ragionamento e non possono essere applicati in diverse discipline.
L'AGI (Artificial General Intelligence) invece, è un ipotetico sistema futuro che supera l'intelligenza umana in più discipline e può imparare da sé e migliorare il proprio processo decisionale in base all'accesso a più dati.
I supercomputer, costruiti da SingularityNET, formeranno una "rete di calcolo cognitivo multilivello" che sarà utilizzata per ospitare e addestrare le architetture necessarie per l'AGI, hanno dichiarato i rappresentanti dell'azienda in un comunicato. Questi includono elementi di sistemi avanzati di AI come le reti neurali profonde, che imitano le funzioni del cervello umano, i modelli linguistici di grandi dimensioni ed i sistemi multimodali che collegano comportamenti umani come input vocali e di movimento con output multimediali.

Il primo supercomputer di SingularityNET sarà pronto tra settembre 2024 e l'inizio del 2025. Avrà componenti molto potenti come schede grafiche Nvidia e processori AMD, che insieme formano alcuni dei migliori hardware per l'intelligenza artificiale disponibili oggi. Per far funzionare questo supercomputer e permettere a molte persone di usarlo contemporaneamente, il team di SingularityNET ha creato un software speciale chiamato OpenCog Hyperon. Questo software è progettato apposta per gestire sistemi di AI molto grandi.
Le persone potranno accedere al supercomputer usando dei "token", simili a quelli usati nei videogiochi delle sale giochi. Con questi token, potranno usare il supercomputer e aggiungere i loro dati, in modo che anche altri possano utilizzarli per testare e sviluppare sistemi di AI ancora più intelligenti.
Verso un'intelligenza artificiale super umana?
Alcuni dei personaggi più influenti nel campo dell’AI, in particolare il co-fondatore di DeepMind Shane Legg, hanno dichiarato che i sistemi potrebbero raggiungere o superare l'intelligenza umana entro il 2028, mentre Mark Zuckerberg sta perseguendo attivamente l'AGI avendo investito 10 miliardi di dollari nella costruzione di un’infrastruttura per addestrare modelli avanzati di AI a gennaio.
SingularityNET, che fa parte dell'Artificial Super Intelligence Alliance (ASI) - un collettivo di aziende dedicate alla ricerca e allo sviluppo di AI open source - prevede di espandere la rete in futuro e di ampliare la potenza di calcolo disponibile.
0.3 Un'acquisizione record per potenziare l'Hugging Face Hub
Hugging Face ha annunciato oggi l'acquisizione di XetHub, una piattaforma di sviluppo collaborativo con sede a Seattle fondata da ex ricercatori di Apple per aiutare i team di machine learning a lavorare in modo più efficiente con grandi dataset e modelli. Anche se il valore esatto dell'accordo rimane riservato, il CEO Clem Delangue ha dichiarato in un'intervista a Forbes che si tratta della più grande acquisizione che l'azienda abbia mai fatto finora.

Integrare la tecnologia di XetHub per ospitare modelli e dataset ancora più grandi
Il team di Hugging Face prevede di integrare la tecnologia di XetHub con la propria piattaforma e di aggiornare il backend di storage, consentendo agli sviluppatori di ospitare più modelli e dataset di grandi dimensioni rispetto a quanto attualmente possibile.
"Il team di XetHub ci aiuterà a sbloccare i prossimi 5 anni di crescita dei dataset e dei modelli di HF passando a una nostra versione migliore di LFS come backend di storage per i repository dell'Hub"
ha scritto in un post sul blog Julien Chaumond, CTO dell'azienda.
Cosa porta XetHub a Hugging Face?
Fondata nel 2021 da Yucheng Low, Ajit Banerjee e Rajat Arya, che hanno lavorato all'infrastruttura di Machine Learning interna di Apple, XetHub si è fatta un nome fornendo alle aziende una piattaforma per esplorare, comprendere e lavorare con grandi modelli e dataset.
Durante questi tre anni, XetHub ha attirato una notevole base di clienti, tra cui nomi importanti come Tableau e Gather AI, grazie alla sua capacità di gestire complesse esigenze di scalabilità derivanti da strumenti, file e artefatti in continua crescita. Ha migliorato i processi di storage e trasferimento utilizzando tecniche avanzate come il content-defined chunking, la deduplicazione, il montaggio istantaneo dei repository e lo streaming dei file.
Ora, con questa acquisizione, la piattaforma XetHub cesserà di esistere e le sue capacità di gestione dei dati e dei modelli arriveranno all'Hugging Face Hub, aggiornando la piattaforma di condivisione di modelli e dataset con un backend di storage più ottimizzato. Vedremo come gli sviluppatori sapranno sfruttare questi vantaggi!
0.4 Apple Intelligence costerà 20 Dollari?!
Apple potrebbe far pagare ai suoi utenti fino a 20 dollari per le sue avanzate funzionalità di intelligenza artificiale, mentre l'azienda cerca di aumentare la crescita del suo redditizio business dei servizi.
Il gigante di Cupertino prevede di lanciare Apple Intelligence, il suo imminente sistema di AI, su alcuni dei suoi dispositivi entro la fine dell'anno.
Quando Apple ha annunciato il suo sistema di AI a giugno, l'azienda ha promesso un assistente vocale Siri potenziato, così come funzionalità tra cui la capacità di generare automaticamente email e immagini. Mentre queste funzionalità saranno rilasciate lentamente, con regioni come la Cina e l'Europa che inizialmente non riceveranno l'accesso, Apple potrebbe addebitare un abbonamento per le app più avanzate, hanno detto gli analisti.

Neil Shah, partner di Counterpoint Research, ha detto che l'investimento nell'AI è costoso e Apple vorrà trasferire quel costo sui suoi utenti.
"Il software e i servizi rendono più redditizio per Apple trasferirlo con il modello di abbonamento Apple One"
ha dichiarato Shah a CNBC in un'intervista la scorsa settimana.
Apple One costa 19,95 dollari al mese e dà agli utenti l'accesso a vari servizi Apple, tra cui Apple Music.
Shah inoltre ha dichiarato che Apple potrebbe addebitare tra i 10 e i 20 dollari per Apple Intelligence, potenzialmente come parte di Apple One.
La divisione servizi di Apple ha portato 24,2 miliardi di dollari nelle casse dell’azienda nel trimestre di giugno e stando alle dichiarazioni fatte alla CNBC di Ben Wood, capo della ricerca di CCS Insight,
"Apple è una delle poche aziende di dispositivi connessi che è riuscita a monetizzare con successo i servizi a valore aggiunto che offre. Di conseguenza, ha creato un precedente con i suoi utenti che devono pagare per servizi più premium. Su questa base, non si può escludere che Apple possa scegliere di far pagare per funzionalità più avanzate all'interno della sua offerta Apple Intelligence".
Seguire l'esempio di OpenAI e Microsoft
Non è insolito che le aziende tecnologiche facciano pagare le loro offerte di AI. OpenAI, per esempio, ha una tariffa di abbonamento per le funzionalità più avanzate di ChatGPT e Microsoft fa pagare per il suo strumento AI Copilot.
Il più grande rivale di Apple, Samsung, che ha già iniziato a lanciare i suoi servizi di intelligenza artificiale noti come Galaxy AI, sta ancora considerando vari modelli di entrate per il suo software, ha detto il suo capo della divisione mobile a CNBC il mese scorso.
Per Apple, l'AI dà all'azienda la possibilità di fidelizzare ulteriormente la sua base di clienti già fedeli, perché Apple Intelligence imparerà dal comportamento dell'utente e offrirà un’esperienza personalizzata. E tu saresti disposto a pagare 20 dollari per queste funzionalità aggiuntive?
🔧 AI Tools
1.1 Google taglia i prezzi di Gemini 1.5 Flash e aggiunge nuove funzionalità per i PDF
Google ha annunciato un taglio dei prezzi fino al 78% per il suo modello Gemini 1.5 Flash, continuando la guerra dei prezzi nel settore dei modelli di intelligenza artificiale.
I costi dei token di input scenderanno del 78% a $0,075 per milione di token, mentre i costi dei token di output diminuiranno del 71% a $0,30 per milione di token per i prompt sotto i 128.000 token. Secondo Google, Gemini 1.5 Flash è il modello più utilizzato nelle situazioni che richiedono alta velocità e bassa latenza, come il riassunto di contenuti, la categorizzazione di dati ed informazioni e la comprensione multimodale.

Migliore comprensione dei PDF e supporto ampliato per lingue e fine-tuning
Le API di Gemini e AI Studio ora supportano una migliore comprensione dei PDF basata sull'analisi di testo e immagini: per i PDF che contengono grafici, immagini o altri contenuti visivi, ora il modello utilizza capacità di elaborazione multimodale native, migliorando i risultati.
Google ha anche ampliato il supporto linguistico per i modelli Gemini 1.5 Pro e Flash ad oltre 100 lingue, permettendo agli sviluppatori di tutto il mondo di lavorare con i modelli nella loro lingua preferita.
Inoltre, Google sta espandendo l'accesso al fine-tuning di Gemini 1.5 Flash, ora disponibile per tutti gli sviluppatori attraverso le API di Gemini e Google AI Studio. Il fine-tuning consente agli sviluppatori di personalizzare i modelli di base e migliorare le prestazioni per attività specifiche fornendo dati aggiuntivi. Ciò riduce la dimensione del contesto del prompt, abbassando la latenza e il costo, aumentando l'accuratezza del modello in compiti specifici.
L'annuncio di Google segue le recenti riduzioni di prezzo fino al 50% di OpenAI per l'accesso alle API di GPT-4o. Sembra che, nonostante l'alto costo di sviluppo e gestione dei modelli di AI, i colossi dell’intelligenza artificiale si siano già impegnati in una feroce guerra dei prezzi.
1.2 OpenAI avverte che gli utenti potrebbero diventare emotivamente dipendenti dalla sua nuova “modalità vocale”
A fine luglio, OpenAI ha iniziato finalmente a rilasciare la tanto attesa “Voice Mode” per ChatGPT. In un'analisi sulla sicurezza, la società riconosce che questa voce antropomorfa potrebbe indurre alcuni utenti a sviluppare un attaccamento emotivo al loro chatbot.

Avvertimenti nel "system card" di GPT-4o
Le avvertenze sono incluse in un "system card" per GPT-4o, un documento tecnico che illustra quelli che l'azienda ritiene siano i rischi associati al modello, oltre a dettagli sui test di sicurezza e sugli sforzi di mitigazione che l'azienda sta intraprendendo per ridurre i potenziali rischi.
OpenAI è stata sottoposta a un attento esame negli ultimi mesi dopo che diversi dipendenti che lavoravano sui rischi a lungo termine dell'AI hanno lasciato l'azienda. Alcuni hanno successivamente accusato OpenAI di correre rischi inutili e di mettere a tacere i dissidenti nella sua corsa alla commercializzazione dell'AI. Rivelare maggiori dettagli sul regime di sicurezza di OpenAI potrebbe contribuire a mitigare le critiche e a rassicurare il pubblico sul fatto che l'azienda prende la questione sul serio.
Rischi ampi e test di sicurezza
I rischi esplorati nel nuovo system card sono profondi ed includono la possibilità che GPT-4o amplifichi i pregiudizi, diffonda disinformazione e aiuti nello sviluppo di armi chimiche o biologiche. Rivela anche dettagli sui test progettati per garantire che i modelli di AI non cerchino di liberarsi dai loro sistemi di controllo o ingannare le persone.
Alcuni esperti esterni elogiano OpenAI per la sua trasparenza, ma affermano che potrebbe fare di più. Lucie-Aimée Kaffee, ricercatrice presso Hugging Face, osserva che il system card di OpenAI per GPT-4o non include dettagli approfonditi sui dati di addestramento del modello o su chi possiede tali dati. "La questione del consenso nella creazione di un dataset così ampio che copre più modalità, inclusi testo, immagini e voce, deve essere affrontata", afferma Kaffee.
Altri notano che i rischi potrebbero cambiare man mano che gli strumenti vengono utilizzati: "La loro revisione interna dovrebbe essere solo il primo passo per garantire la sicurezza dell'AI",
afferma Neil Thompson, professore del MIT che studia le valutazioni dei rischi dell'AI.
"Molti rischi si manifestano solo quando l'AI viene utilizzata nel mondo reale. È importante che questi altri rischi siano catalogati e valutati man mano che emergono nuovi modelli".

Antropomorfizzazione e dipendenza emotiva
Il nuovo system card evidenzia quanto rapidamente stiano evolvendo i rischi dell'AI con lo sviluppo di potenti nuove funzionalità come l'interfaccia vocale di OpenAI. A maggio, quando l'azienda ha svelato la sua modalità vocale che può rispondere rapidamente e gestire le interruzioni in uno scambio naturale, molti utenti hanno notato che sembrava eccessivamente civettuola nelle demo. L'azienda ha poi subito le critiche dell'attrice Scarlett Johansson, che l'ha accusata di aver copiato la sua voce per l’utilizzo della “Voice Mode”.
Una sezione del system card intitolata "Antropomorfizzazione e dipendenza emotiva" esplora i problemi che sorgono quando gli utenti percepiscono l'AI in termini umani. Durante il red teaming o stress testing di GPT-4o, i ricercatori di OpenAI hanno notato casi di discorsi degli utenti che trasmettevano un senso di connessione emotiva con il modello. Per esempio, le persone usavano un linguaggio come "Questo è il nostro ultimo giorno insieme".
L'antropomorfismo potrebbe far sì che gli utenti ripongano più fiducia nell'output di un modello e persino influenzare le relazioni degli utenti con altre persone.
"Gli utenti potrebbero formare relazioni sociali con l'AI, riducendo la loro necessità di interazione umana, potenzialmente a beneficio di individui solitari ma possibilmente influenzando le relazioni sane"
, afferma il documento.
Joaquin Quiñonero Candela, responsabile della preparazione di OpenAI, osserva anche che il tipo di effetti emotivi osservati con GPT-4o possono essere positivi, per esempio aiutando chi è solo o chi ha bisogno di esercitarsi nelle interazioni sociali. L'azienda studierà da vicino l'antropomorfismo e le connessioni emotive, anche monitorando il modo in cui i beta tester interagiscono con ChatGPT.
Un problema riconosciuto anche da altri
OpenAI non è l'unica a riconoscere il rischio che gli assistenti AI imitino l'interazione umana. Ad aprile, Google DeepMind ha pubblicato un lungo articolo che discute le potenziali sfide etiche sollevate da assistenti AI più capaci. Iason Gabriel, ricercatore scientifico del personale dell'azienda, ha riferito a WIRED che la capacità dei chatbot di usare il linguaggio "crea questa impressione di genuina intimità", aggiungendo che lui stesso aveva trovato un'interfaccia vocale sperimentale per l'AI di Google DeepMind particolarmente appiccicosa.
Sicuramente è una tematica molto delicata che merita la giusta attenzione ed analisi. Vivremo in una società sempre più solitaria, isolata e digitale?
🎨 Approfondimento
2.1 Curare le allucinazioni delle AI: una sfida aperta
Probabilmente è capitato a molti di voi: fate una domanda a ChatGPT e il sistema di OpenAI vi risponde con un'informazione dettagliata e convincente. Peccato che sia anche del tutto falsa. Gli esempi di quelle che in gergo tecnico vengono chiamate "allucinazioni" – ma che potremmo anche definire "inventare cose" – ormai si sprecano: da politici anticorruzione accusati falsamente di aver intascato tangenti al chatbot di Air Canada che ha offerto ai clienti della compagnia aerea uno sconto in realtà mai previsto (e che la società è stata infine costretta a onorare).
Secondo una ricerca condotta dalla società Vectara, GPT-4, che alimenta un modello avanzato di ChatGPT, soffre di allucinazioni nel 3% dei casi, Claude 2 di Anthropic arriva all'8,5% e Palm di Google supera in alcune sue versioni (oggi superate da Gemini) anche il 27%. Tutto ciò rappresenta ovviamente un grosso limite alla diffusione dei large language model (LLM), soprattutto in settori dove l'accuratezza e l'affidabilità sono di fondamentale importanza.

Perché le AI dicono stupidaggini?
Prima di tutto va sottolineato che questi modelli linguistici sono progettati proprio allo scopo di inventare cose. O meglio: di tirare a indovinare le risposte che ci forniscono. I large language models non fanno infatti altro che prevedere statisticamente – sulla base dell'enorme quantità di dati con cui sono stati addestrati – quale sia la parola che ha la maggior probabilità di essere coerente con quelle che l'hanno preceduta.
Come spiega l'Economist, "ogni token (termine con cui si definiscono le unità di testo impiegate da questi modelli) presente nel dataset deve avere una probabilità superiore a zero di venire selezionato, dando così al modello la flessibilità necessaria ad apprendere nuovi pattern, ma anche la possibilità di generare affermazioni scorrette. Il problema fondamentale è che i modelli linguistici sono probabilistici: la verità, invece, non lo è".
Un altro limite è legato direttamente al dataset, per creare il quale vengono usate enormi porzioni di internet. In questo enorme calderone finiscono inevitabilmente anche tantissimi contenuti di pessima qualità. Le macchine, però, fanno fatica a distinguere correttamente i contenuti validi da quelli che andrebbero scartati, oltre a non saper riconoscere il sarcasmo, i doppi sensi o le ambiguità.

Come curare le AI dalle allucinazioni?
Uno dei rimedi già oggi impiegati prevede di abbassare al minimo la "temperatura" di questi modelli, vale a dire la loro libertà creativa, incoraggiandoli a scegliere sempre la parola più prevedibile. In questo modo si riducono gli errori, ma si riducono inevitabilmente anche gli ambiti d'uso di questi sistemi.
Altri metodi prevedono di utilizzare specifici prompt per ottenere risultati migliori. Per esempio, si è scoperto che dire a ChatGPT di "riflettere bene prima di rispondere" o di "procedere un passo per volta" riduce il rischio di allucinazioni, probabilmente perché questo genere di frasi è spesso presente nei test accademici con cui sono stati addestrati.
Un metodo più sofisticato va sotto l'acronimo RAG (retrieval augmented generation) e prevede di affiancare gli LLM con un motore di ricerca, permettendogli quindi di reperire informazioni online in tempo reale invece di affidarsi esclusivamente al dataset tramite il quale è stato addestrato. Questo permette di ridurre la frequenza delle allucinazioni, ma non risolve completamente il problema.

Nvidia ha recentemente annunciato NeMo Guardrails, un software open-source progettato per impedire ai chatbot di generare affermazioni false configurando delle barriere che impediscono ai chatbot di trattare argomenti per i quali non hanno ricevuto un addestramento specifico. Ovviamente, questo sistema è utile soltanto ai chatbot progettati per usi specifici e non a quelli di uso generale.
Un altro metodo sul quale si sta facendo ampio affidamento è il cosiddetto RLHF (reinforcement learning from human feedback). Come dice il nome, il RLHF prevede che siano degli esseri umani a valutare la gamma di risposte generate dall'intelligenza artificiale in risposta a una singola domanda, indicando quindi quale tra queste sia la migliore.
OpenAI sta anche sperimentando CriticGPT, un secondo large language model progettato per affiancare gli esseri umani nella valutazione del primo modello. Durante i test iniziali, unendo le forze con i revisori umani, CriticGPT è riuscito a scovare l'85% dei bug che erano stati appositamente inseriti in un codice, contro il 25% dei soli revisori umani. Resta però ancora da capire se questi risultati si verificheranno anche quando il sistema di controllo di OpenAI verrà applicato al più complesso ambito del linguaggio naturale.
Un problema intrinseco senza soluzione definitiva?
Nonostante i progressi, il problema è sempre lo stesso: come ha spiegato in un paper Ziwei Xu, ricercatore dell'Università di Singapore, le allucinazioni sono un "problema intrinseco" degli LLM che non potrà mai essere risolto completamente. Lo stesso tasso d'errore, inoltre, può essere accettabile in alcuni campi e non in altri.
Forse dobbiamo accettare una volta per tutte che questi modelli – per quanto sembrino dotati di abilità straordinarie – hanno in realtà esclusivamente l'abilità di tirare a indovinare attraverso complicatissimi calcoli statistici. E che ciò rappresenta un limite insuperabile agli ambiti in cui ChatGPT e i suoi fratelli possono realmente esserci utili.
💡 Link Utili
Scopri l’Academy di Imparerai e tutte le risorse che abbiamo preparato per te! |
Scopri i migliori Tool di AI selezionati per te! |
Vuoi contattarci? Non aspettiamo altro! |
Sei arrivato alla fine!
La tua razione è completa!

Il tuo feedback è importante! Rispondi a questa email e raccontaci come potremmo migliorare questa newsletter.
Sei interessato a raggiungere i nostri lettori? Per diventare uno sponsor di Imparerai, scrivici qua!