Imparerai Newsletter
Posts
Grok ci renderà liberi? Le tue Razioni di AI.

Grok ci renderà liberi? Le tue Razioni di AI.

Grok senza censure, Runway mette il Turbo e nuovi modelli per la generazione di immagini..

Giovanni Meroi
20 agosto 2024

Le tue "Razioni" di AI 🥫

📰 News della settimana
🔧 AI Tools
- 1.1 Midjourney ha un nuovo editor web e amplia l'a …
- 1.2 Imagen 3 promette immagini più dettagliate e r …
🎨 Approfondimenti
- 2.1 Nuove evidenze suggeriscono che i grandi model …
💡 Link Utili

📰 News della settimana

0.1 Grok-2 arriva con la generazione di immagini: siamo pronti?

Come anticipato dagli aggiornamenti e dalle nuove impostazioni nell'app mobile del social network X di Elon Musk, la scorsa notte è stato lanciato Grok-2, un nuovo modello linguistico di grandi dimensioni sviluppato da xAI, società affiliata a Musk. Il suo debutto sta facendo molto scalpore nel mondo dell'intelligenza artificiale.

Grok-2 è ora integrato direttamente in X e accessibile attraverso due livelli di abbonamento: Premium e Premium+. Il modello si presenta in due versioni: Grok-2 e Grok-2 mini: la versione completa, Grok-2, offre prestazioni all'avanguardia in una vasta gamma di attività, tra cui chat, scrittura di codice, ragionamento e applicazioni basate sul riconoscimento delle immagini. Grok-2 mini, invece, è una versione più compatta e veloce, ottimizzata per l'efficienza e ideale per prompt testuali più semplici che richiedono risposte rapide.

Capacità di generazione di immagini e prestazioni da record

Grok-2 non solo vanta impressionanti capacità di generazione di immagini, frutto di una partnership con Black Forest Labs e il loro innovativo modello di diffusione AI open-source Flux.1, ma supera sorprendentemente i modelli AI dei principali concorrenti come OpenAI (GPT-4), Anthropic (Claude 3.5 Sonnet) e persino Google (Gemini Pro 1.5) nei principali test di benchmark di terze parti.

Le generazioni di immagini rubano la scena

Nonostante Grok-2 sia ottimo in vari ambiti come matematica, scrittura e codifica, la sua caratteristica più sorprendente è l'integrazione con il modello di generazione di immagini Flux.1 di Black Forest Labs. Già prima del lancio di Grok-2, Flux.1 aveva attirato l'attenzione nei circoli dell'AI e dell'arte digitale per la sua capacità di produrre immagini incredibilmente fotorealistiche.

Ora che Flux.1 è integrato direttamente in Grok-2, similmente a come OpenAI ha incorporato DALL-E 3 in ChatGPT, gli utenti possono generare immagini semplicemente digitando prompt testuali. Tuttavia, i test iniziali hanno rivelato che Grok-2 è notevolmente permissivo, generando immagini controverse e potenzialmente compromettenti anche di personaggi pubblici come i candidati presidenziali statunitensi Kamala Harris e Donald Trump.

Preoccupazioni per la diffusione di deepfake e disinformazione

Mentre altri importanti generatori di immagini come Midjourney, DALL-E 3 e Microsoft Designer hanno implementato restrizioni sulla creazione di contenuti sensibili, soprattutto dopo lo scandalo dei deepfake non autorizzati della cantante Taylor Swift, Grok-2 sembra andare controcorrente, offrendo maggiore libertà creativa ma anche potenziali rischi. Questa scelta si allinea con l'ethos di "libertà di parola" promosso da Musk per X.

Il lancio di Grok-2 segna un momento significativo nell'evoluzione dell'intelligenza artificiale, portando capacità e la semplicità di generazione di immagini fotorealistiche a un nuovo livello, stabilendo nuovi standard. Tuttavia, la sua permissività nella creazione di immagini controverse e senza troppe limitazioni solleva importanti questioni etiche e di responsabilità nell'era dei deepfake e della disinformazione digitale.

0.2 OpenAI limita l'accesso a SearchGPT: un lancio cauto per il nuovo motore di ricerca generativo

OpenAI ha recentemente chiuso la lista d'attesa per SearchGPT, il suo innovativo motore di ricerca generativo, optando per un lancio controllato che coinvolgerà inizialmente solo 10.000 utenti selezionati. L'azienda sta notificando via email coloro che non sono stati scelti per questa fase iniziale. Questa strategia di rilascio graduale permette a OpenAI di monitorare attentamente le prestazioni del sistema e affrontare eventuali problemi, come raccomandazioni imprecise, prima di procedere con una distribuzione su larga scala.

Affinare funzionalità ed esperienza utente

Questa fase di accesso anticipato è stata progettata per perfezionare le funzionalità e l'esperienza utente di SearchGPT, basandosi sul feedback di un gruppo ristretto di tester. La decisione di limitare l'accesso iniziale riflette una strategia volta a gestire i potenziali rischi e garantire che il prodotto soddisfi le aspettative prima di ampliarne la disponibilità.

Questo approccio cauto non sorprende, considerando le difficoltà che OpenAI e altre aziende del settore hanno incontrato con i loro modelli di AI generativa. Come evidenziato in precedenti analisi, ChatGPT e sistemi simili sono spesso soggetti a "allucinazioni", generando informazioni dettagliate ma completamente false.

Imparare dagli errori del passato

Secondo una ricerca condotta da Vectara, GPT-4, il modello avanzato che alimenta una versione di ChatGPT, soffre di allucinazioni nel 3% dei casi. Questa percentuale, apparentemente bassa, rappresenta comunque un ostacolo significativo alla diffusione dei large language model (LLM), soprattutto in settori critici come l'istruzione, la sanità e il giornalismo, dove l'accuratezza è fondamentale.

OpenAI sembra aver tratto insegnamento da queste esperienze, adottando un approccio più prudente con SearchGPT. Monitorando attentamente le prestazioni del motore di ricerca con un gruppo selezionato di utenti, l'azienda mira a identificare e risolvere eventuali problemi prima di rendere il servizio ampiamente disponibile.

Un passo verso il futuro della ricerca online?

Nonostante le sfide, SearchGPT rappresenta un passo entusiasmante verso il futuro della ricerca online. A differenza dei motori di ricerca tradizionali che forniscono un elenco di link, SearchGPT promette di generare risposte dirette e personalizzate alle query degli utenti, sfruttando la potenza dei large language model.

Se OpenAI riuscirà a risolvere i problemi di accuratezza e affidabilità, SearchGPT potrebbe rivoluzionare il modo in cui cerchiamo informazioni online, offrendo un'esperienza più intuitiva e conversazionale. Tuttavia, la strada è ancora lunga e l'azienda dovrà dimostrare che il suo motore di ricerca generativo può fornire risultati di alta qualità in modo coerente.

0.3 Gen-3 Alpha Turbo di Runway: video AI generati più velocemente della digitazione

Dopo un'anteprima alla fine del mese scorso, Runway ML ha ufficialmente lanciato Gen-3 Alpha Turbo, l'ultima versione del suo modello di generazione video basato su intelligenza artificiale. Questa nuova iterazione si distingue per essere sette volte più veloce e costare la metà rispetto al suo predecessore, Gen-3 Alpha. L'obiettivo dichiarato è rendere la produzione di video AI più accessibile a un pubblico più ampio, estendendola a tutti i piani di abbonamento, incluse le prove gratuite.

Generare video 7 volte più velocemente a metà prezzo

L'azienda newyorkese ha annunciato la novità sul suo account X, dichiarando: "Gen-3 Alpha Turbo Image to Video è ora disponibile e può generare video 7 volte più velocemente per la metà del prezzo dell'originale Gen-3 Alpha, mantenendo le prestazioni in molti casi d'uso. Turbo è disponibile per tutti i piani, inclusa la prova per gli utenti gratuiti. Sono in arrivo ulteriori miglioramenti al modello, ai meccanismi di controllo e alle possibilità di interattività in tempo reale".

Gen-3 Alpha Turbo si basa sulle già impressionanti capacità di Gen-3 Alpha di Runway, che ha attirato l'attenzione per la sua realistica generazione di video. Con questa ultima versione, Runway ha spinto ulteriormente i limiti, dando priorità alla velocità senza compromettere le prestazioni. Secondo Cristóbal Valenzuela, co-fondatore e CEO di Runway, il nuovo modello Turbo è così rapido che "ora mi ci vuole più tempo a digitare una frase che a generare un video".

Questo notevole incremento di velocità affronta un problema critico dei modelli di generazione video AI: la lentezza nella creazione dei contenuti. Consentendo una produzione video quasi in tempo reale, gli utenti possono aspettarsi un flusso di lavoro più fluido ed efficiente.

Ampia accessibilità e prezzi competitivi

La decisione di Runway di abbassare il costo di utilizzo di Gen-3 Alpha Turbo si allinea con la sua strategia di promuovere un'adozione più diffusa della sua tecnologia. Mentre Gen-3 Alpha regular è prezzato a 10 crediti per secondo di video generato, Gen-3 Alpha Turbo dovrebbe costare 5 crediti per 1 secondo di video, rispecchiando la dichiarazione di Runway di una riduzione del 50% circa.

I crediti possono essere acquistati in pacchetti a partire da 1.000 sul sito web di Runway o come parte di abbonamenti mensili o annuali. Il costo è di $10 per 1.000 crediti, ovvero $0,01 per credito.

0.4 Il CEO di Perplexity spiega come i motori di ricerca AI possono essere facilmente manipolati

Aravind Srinivas, co-fondatore del motore di ricerca Perplexity, ha recentemente svelato come i motori di ricerca basati sull'intelligenza artificiale possano essere facilmente manipolati attraverso l'uso di testo nascosto nei siti web. In un'intervista con Lex Fridman, Srinivas ha descritto una tecnica che ha denominato "Answer Engine Optimization" (AEO).

Secondo Srinivas, i proprietari dei siti web possono incorporare testo invisibile nelle loro pagine e istruire i sistemi di AI a ripetere determinate frasi quando analizzano il contenuto nascosto.

La sfida di difendersi dalle "prompt injection"

Questa forma di manipolazione, nota come prompt injection, funziona sia con il testo nascosto all'interno del contenuto principale che nelle immagini. È probabile che esistano altri metodi per nascondere testo manipolativo, come l'inserimento nelle sitemap, nel testo ALT delle immagini o nei nomi dei file.

Srinivas ha paragonato la difesa contro tali manipolazioni a un gioco del gatto col topo, sottolineando che alcune questioni dovranno essere affrontate in modo reattivo, similmente a come Google ha combattuto lo spam SEO per anni ed attualmente, non esiste una protezione affidabile contro le prompt injection, una vulnerabilità nota almeno dal lancio di GPT-3.

Un problema serio con potenziali conseguenze diffuse

Questo dimostra che le prompt injection non sono un problema da sottovalutare. Se Perplexity e prodotti simili dovessero guadagnare popolarità, questa forma di manipolazione potrebbe diventare pervasiva, con contenuti falsi o manipolativi inseriti nelle risposte dell'AI difficili da rilevare per l'assenza di un contesto aggiuntivo, come avviene invece per una pagina web.

Perplexity sta crescendo, ma è ancora molto indietro rispetto a Google. Perplexity ha risposto a 250 milioni di domande nel giugno 2024, dopo averne gestite in totale 500 milioni l'anno precedente. Tuttavia, la startup è ancora molto lontana da Google, che gestisce circa 8,5 miliardi di ricerche al giorno.

Perplexity deve inoltre confrontarsi con la concorrenza di giganti tecnologici dotati di vaste risorse e dati. Google ha recentemente esteso le sue risposte AI a più paesi, mentre Microsoft offre capacità simili in Bing. Anche OpenAI sta testando un motore di ricerca AI chiamato SearchGPT come abbiamo visto in precedenza.

🔧 AI Tools

1.1 Midjourney ha un nuovo editor web e amplia l'accesso al suo sito

Midjourney ha recentemente introdotto un innovativo editor web che consente agli utenti di modificare le immagini generate dall'intelligenza artificiale direttamente nel browser. Questo nuovo strumento unisce funzionalità chiave come "Reframe", "Repaint", "Vary Region", "Pan" e "Zoom" in un'unica interfaccia intuitiva. Ciò rappresenta un notevole miglioramento rispetto al passato, quando gli utenti dovevano destreggiarsi tra diversi comandi e interfacce per ottenere risultati simili.

David Holz, fondatore di Midjourney, sottolinea come il nuovo editor web renda il processo di modifica delle immagini notevolmente più fluido. Gli utenti possono ora accedere a tutte le funzioni di editing essenziali in un unico ambiente, eliminando la necessità di passare da uno strumento all'altro.

Accesso ampliato alla piattaforma tramite il sito web

Parallelamente, l'azienda sta espandendo l'accesso alla sua piattaforma. Gli utenti che hanno creato almeno dieci immagini sul server Discord di Midjourney possono ora utilizzare il sito web dell'azienda (midjourney.com) per creare e modificare le immagini. Questo amplia significativamente l'accessibilità del servizio, finora principalmente limitato al server Discord.

Sebbene questa mossa abbassi la barriera d'ingresso, rimane ancora il requisito di un precedente utilizzo di Midjourney su Discord. L'azienda non ha ancora comunicato quando questo vincolo potrebbe essere rimosso, e il sito web è attualmente etichettato come versione "alpha".

In attesa del prossimo grande salto nella generazione di immagini

A fine luglio, Midjourney ha rilasciato la versione 6.1 del suo generatore di immagini AI, oltre sei mesi dopo l'aggiornamento precedente. Secondo il CEO David Holz, questa nuova versione produce risultati più coerenti, dettagliati e visivamente accattivanti.

La generazione standard di immagini è ora il 25% più veloce, con miglioramenti focalizzati su estremità umane, piante, animali e piccoli dettagli. Tra le nuove funzionalità si annoverano un upscaler migliorato, il parametro --q 2 per una maggiore texture e opzioni di personalizzazione ampliate.

Midjourney prevede di rilasciare un ulteriore aggiornamento del modello alla fine di agosto, ma non c'è ancora una data fissata per la versione 7. Nonostante Midjourney mantenga la leadership di mercato in termini di qualità estetica delle immagini, risulta ancora in ritardo rispetto a concorrenti come DALL-E, Ideogram e il recentemente lanciato Flux per quanto riguarda la fedeltà ai prompt degli utenti.

In conclusione, Midjourney sta compiendo significativi passi avanti nel migliorare la sua piattaforma di generazione di immagini AI, sia in termini di funzionalità di editing che di accessibilità. Il nuovo editor web semplifica notevolmente il processo di modifica delle immagini, mentre l'ampliamento dell'accesso tramite il sito web potrebbe attrarre nuovi utenti.

Tuttavia, la vera sfida per Midjourney sarà mantenere il suo vantaggio qualitativo mentre cerca di colmare il divario con i concorrenti nella capacità di seguire fedelmente i prompt degli utenti. Sarà interessante osservare cosa porterà il prossimo grande aggiornamento del modello.

1.2 Imagen 3 promette immagini più dettagliate e realistiche

Google ha recentemente lanciato negli Stati Uniti l'ultima versione di Imagen 3, il suo avanzato generatore di immagini basato sull'intelligenza artificiale che converte il testo in immagini. Come riportato da VentureBeat, questo strumento, accessibile tramite Google's AI Test Kitchen, promette di generare immagini con "dettagli migliori, illuminazione più ricca e meno artefatti" rispetto alle versioni precedenti. Sebbene Google avesse annunciato per la prima volta l'aggiornamento di Imagen 3 durante l'evento I/O di maggio, sembra che lo strumento sia stato reso generalmente disponibile attraverso la piattaforma Vertex AI solo di recente. La scorsa settimana, alcuni utenti di Reddit hanno iniziato a sperimentare con Imagen 3, e martedì Google ha pubblicato un articolo di ricerca sullo strumento.

Creazione e modifica di immagini dettagliate basate su prompt

Come altri generatori di immagini AI, Imagen 3 può creare immagini dettagliate in base ai prompt testuali forniti dall'utente. Inoltre, offre la possibilità di modificare l'immagine evidenziando una specifica area e descrivendo le modifiche desiderate. Lo strumento sembra implementare alcune misure di protezione: si rifiuta di generare immagini di personaggi pubblici, come Taylor Swift e non produce immagini di armi. Sebbene eviti di generare personaggi protetti da copyright quando nominati esplicitamente, è possibile aggirare questa limitazione descrivendo il personaggio desiderato senza nominarlo direttamente.

Nonostante queste protezioni relativamente flessibili, Imagen 3 si distingue nettamente da Grok, il generatore di immagini AI sulla piattaforma X di Elon Musk. Grok è stato utilizzato per generare una vasta gamma di contenuti controversi, incluse immagini con droghe, violenza e personaggi pubblici in situazioni discutibili. Tuttavia, anche gli strumenti di AI di Google hanno incontrato alcune difficoltà. All'inizio di quest'anno, Google ha sospeso la generazione di immagini con il suo chatbot AI Gemini dopo che gli utenti hanno scoperto che produceva immagini storicamente inaccurate.

🎨 Approfondimenti

2.1 Nuove evidenze suggeriscono che i grandi modelli linguistici sviluppano una propria interpretazione della realtà

Un recente studio condotto da ricercatori del MIT (Massachusetts Institute of Technology) fornisce nuove prove a sostegno dell'ipotesi che i grandi modelli linguistici possano sviluppare una propria comprensione del mondo man mano che affinano le loro competenze linguistiche, anziché limitarsi a combinare statistiche superficiali. Questa ricerca contribuisce al dibattito in corso sulla natura degli LLM: sono semplici "pappagalli stocastici" o sono in grado di apprendere rappresentazioni interne significative?

Una scoperta sorprendente

Immagina un labirinto molto semplice, fatto di quadrati su un foglio a quadretti. I ricercatori hanno creato dei programmi speciali per muoversi in questi labirinti e li hanno usati per addestrare un modello di intelligenza artificiale che lavora con il linguaggio. Durante l'addestramento, il modello poteva vedere solo il punto di partenza (input) e il punto di arrivo (output) in questi labirinti, ma non poteva vedere i passaggi intermedi.

Nonostante queste limitazioni, è successo qualcosa di inaspettato. Utilizzando uno strumento speciale chiamato "classificatore di probing", i ricercatori sono riusciti a "sbirciare" dentro il modello. Hanno scoperto che il modello stava creando delle rappresentazioni interne sempre più precise di come funzionavano questi labirinti, anche se non gli era mai stato insegnato esplicitamente a farlo. Questo suggerisce che il modello non si limitava a memorizzare meccanicamente le informazioni, ma stava sviluppando una vera e propria comprensione di come funzionavano i programmi per muoversi nei labirinti.

Per essere sicuri di questa scoperta, i ricercatori hanno fatto un altro esperimento. Hanno modificato leggermente i programmi, cambiando il loro significato (semantica) ma mantenendo la stessa struttura (sintassi). Il risultato? Il modello ha dimostrato di essere più interessato al significato originale dei programmi piuttosto che alla loro struttura superficiale. Questo conferma che il modello stava davvero "capendo" qualcosa del funzionamento dei programmi, non limitandosi a memorizzare schemi. In parole semplici, è come se il modello avesse imparato non solo a ripetere le istruzioni per attraversare il labirinto, ma avesse sviluppato una vera e propria "mappa mentale" di come funziona il labirinto stesso.

Anche OthelloGPT ha mostrato rappresentazioni interne significative

In un esperimento correlato, un modello GPT è stato addestrato a giocare a Othello. I ricercatori hanno scoperto che il modello aveva sviluppato una sorta di "modello interno" del gioco. Modificando questo modello interno, le previsioni del sistema cambiavano, indicando che il modello utilizzava attivamente questa rappresentazione appresa per prendere decisioni.

Sebbene questi esperimenti siano stati condotti in ambienti semplificati, offrono spunti promettenti per comprendere le potenzialità e i limiti dei modelli linguistici di grandi dimensioni nel catturare il significato.

Martin Rinard, uno degli autori senior dello studio del MIT, commenta: "Questa ricerca affronta una questione fondamentale nell'intelligenza artificiale moderna: le sorprendenti capacità dei grandi modelli linguistici sono dovute semplicemente a correlazioni statistiche su larga scala, o questi modelli sviluppano una comprensione significativa della realtà con cui interagiscono? I nostri risultati suggeriscono che il modello linguistico sviluppa un modello interno della realtà simulata, anche se non è mai stato esplicitamente addestrato a farlo."

In conclusione, queste scoperte supportano l'idea che i grandi modelli linguistici come GPT non siano semplici "pappagalli stocastici", ma possano sviluppare una comprensione emergente del mondo attraverso l'addestramento su compiti specifici. Ciò apre nuove prospettive per comprendere meglio le capacità e i limiti di questi sistemi nell'acquisire rappresentazioni significative della realtà.

💡 Link Utili

Scopri l’Academy di Imparerai e tutte le risorse che abbiamo preparato per te!

Scopri i migliori Tool di AI selezionati per te!

Vuoi contattarci? Non aspettiamo altro!

Sei arrivato alla fine!

La tua razione è completa!

Il tuo feedback è importante! Rispondi a questa email e raccontaci come potremmo migliorare questa newsletter.

Sei interessato a raggiungere i nostri lettori? Per diventare uno sponsor di Imparerai, scrivici qua!