- Imparerai Newsletter
- Posts
- Caldo? Ecco un po' di notizie Fresche
Caldo? Ecco un po' di notizie Fresche
Robot, Suno con l'App, Bot e Multi Token..
Le tue "Rations" di AI 🥫
📰 News della settimana
0.1 Da barista ad operaio: l'evoluzione di Figure 01
Figure, l'azienda di robotica con sede in California, ha rilasciato un video che mostra il suo robot umanoide 01 al lavoro nella catena di montaggio di BMW. Solo pochi mesi fa, lo stesso robot ci stupiva preparando un caffè dopo solo 10 ore di addestramento. Ora, grazie ad un accordo commerciale con il produttore tedesco di automobili, Figure 01 sta mettendo alla prova le sue capacità nell'assemblaggio di veicoli presso lo stabilimento BMW di Spartanburg, nella Carolina del Sud.
Autonomia e precisione grazie alle reti neurali
Ciò che rende speciale Figure 01 è la sua completa autonomia: tutte le manipolazioni mostrate nel video sono guidate da reti neurali che mappano direttamente i pixel in azioni. Questo significa che il robot è in grado di "vedere" attraverso le sue telecamere e tradurre ciò che vede in movimenti precisi, senza bisogno di un controllo umano diretto.
Grazie a questa tecnologia, Figure 01 è in grado di eseguire una vasta gamma di lavori di produzione, tra cui la manipolazione di lamiere, il lavoro nella carrozzeria e la gestione del magazzino. Le reti neurali elaborano le immagini a 10 Hz attraverso le telecamere del robot e, a 200 Hz, producono azioni con 24 gradi di libertà, garantendo un posizionamento preciso delle lamiere entro tolleranze inferiori a 1 cm.
L'obiettivo di Figure è creare un modello globale che possa gestire miliardi di robot umanoidi. L'azienda sottolinea che solo negli Stati Uniti ci sono circa 10 milioni di posti di lavoro pericolosi o indesiderabili. Con una popolazione che invecchia e una crescita dell'offerta di lavoro stagnante, l'automazione diventa una necessità per aumentare la produttività e sostenere la crescita economica.
Figure 01 rappresenta un passo avanti significativo in questa direzione. Grazie alla partnership con OpenAI, il creatore di ChatGPT, il robot è in grado di imparare osservando gli esseri umani, permettendogli di comprendere ed eseguire compiti complessi.
Una corsa verso il futuro della robotica
Figure AI non è sola in questa corsa all'automazione. Aziende come Tesla, Kepler, Unitree e Boston Dynamics stanno sviluppando i propri robot umanoidi per scopi generali. Anche altri produttori di automobili, come Mercedes, Honda e Hyundai, stanno esplorando l'uso di robot simili all'uomo per automatizzare compiti ripetitivi e pericolosi nelle linee di assemblaggio.
In un futuro non troppo lontano, potremmo vedere fabbriche e luoghi di lavoro popolati da robot come Figure 01, che lavorano fianco a fianco con i loro colleghi umani. Questa collaborazione tra uomo e macchina potrebbe non solo rendere il lavoro più sicuro ed efficiente, ma anche liberare le persone per concentrarsi su compiti più creativi e gratificanti.
Mentre Figure 01 continua a stupirci con le sue abilità in continua evoluzione, una cosa è certa: il futuro della robotica è già qui, e promette di rivoluzionare il modo in cui lavoriamo e viviamo.
0.2 Tencent AI Lab rivoluziona la generazione di dati sintetici con le "personas"
I ricercatori del Tencent AI Lab di Seattle hanno introdotto un nuovo metodo per generare dati sintetici: le personalità sintetiche, o "personas". Queste sostituiscono le persone reali per generare miliardi di dataset sintetici per lo sviluppo di sistemi di intelligenza artificiale.
Il team ha creato il "Persona Hub", una raccolta di 1 miliardo di personaggi virtuali, utilizzando due approcci:
"Text-to-Persona": deriva le personalità da testi web
"Persona-to-Persona": genera nuove personas basate sulle relazioni con personalità precedentemente create
In pratica, le personas fungono da moltiplicatore per i dati sintetici, poiché grazie al loro background possono generare una gran varietà di dati, in modo simile a come quando chiediamo a ChatGPT di comportarsi come un “Marketer Esperto”, ed il suo ruolo influenza l'output che otteniamo come risposta.
Dati sintetici per ogni esigenza
Le personas sintetiche possono essere utilizzate per generare un'ampia varietà di dati per l'addestramento di modelli di AI, come problemi matematici, problemi che richiedono pensiero logico e istruzioni per modelli di linguaggio.
In un esperimento, i ricercatori hanno utilizzato Persona Hub per generare 1,07 milioni di problemi matematici. Un modello con 7 miliardi di parametri addestrato su questi dati ha raggiunto un'accuratezza del 64,9% sul benchmark MATH, eguagliando le prestazioni di gpt-4-turbo-preview di OpenAI con una frazione delle dimensioni del modello.
Gli scienziati vedono nella loro metodologia il potenziale per un cambio di paradigma nella generazione di dati per l'AI. Invece di affidarsi a dati generati dall'uomo, in futuro i grandi modelli di linguaggio potrebbero generare autonomamente dati sintetici diversificati.
Il team vede ulteriori potenziali applicazioni per gli NPC nei videogiochi o nello sviluppo di strumenti specifici per professione.
0.3 Suno porta la rivoluzione musicale dell'AI nelle tasche di tutti con la sua nuova app iOS
Suno, la startup di intelligenza artificiale nota per le sue capacità di generazione di musica da testo, ha finalmente lanciato la sua app per iOS, mettendo potenzialmente uno studio musicale virtuale nelle tasche di milioni di persone in tutto il mondo. Questa mossa segna un passo significativo nella democratizzazione della produzione musicale e potrebbe ridisegnare il panorama dell'espressione creativa nell'era digitale.
Crea canzoni complete in pochi minuti con un semplice prompt
Disponibile ora sull'App Store di Apple, l'app consente agli utenti di generare composizioni musicali originali semplicemente inserendo dei prompt testuali. Il modello di AI di Suno, addestrato su una vasta gamma di stili e generi musicali, produce canzoni complete con voci, strumentazione e arrangiamenti in pochi minuti.
"Dodici milioni di persone finora hanno usato Suno per esprimersi, connettersi, insegnare e divertirsi," ha dichiarato Mikey Shulman, CEO di Suno, in un comunicato che annuncia il lancio della tanto attesa app mobile. "Siamo entusiasti di essere nella vostra tasca ogni volta che il momento lo richiede e di fornire una ricca serie di strumenti per catturarlo."
Questo sviluppo potrebbe alterare radicalmente il nostro modo di pensare alla creazione musicale. Stiamo assistendo a un passaggio trasformativo da un mondo in cui la produzione musicale richiedeva conoscenze tecniche e attrezzature significative a uno in cui chiunque abbia uno smartphone può essere un compositore.
Tuttavia, questa democratizzazione porta con sé una serie di sfide ed interrogativi. Con l'abbassamento delle barriere all'ingresso nella creazione musicale, potremmo assistere a un'ondata di contenuti generati dall'AI che potrebbero potenzialmente oscurare le opere create dall'uomo. Ciò solleva interrogativi sul valore della creatività umana in un'era di arte generata dalle macchine e potrebbe costringerci a riconsiderare la nostra comprensione di ciò che costituisce il talento e l'originalità musicale.
Suno nella bufera legale: la battaglia sul copyright della musica generata dall'AI
L'espansione di Suno arriva in mezzo a significativi ostacoli legali. L'azienda, insieme al collega generatore di musica AI Udio, è stata recentemente citata in giudizio da importanti etichette discografiche tra cui Universal Music Group, Sony Music Entertainment e Warner Records. La causa, presentata il 24 giugno, sostiene una diffusa violazione del copyright nell'addestramento dei modelli di AI di Suno.
La Recording Industry Association of America (RIAA), che rappresenta le etichette, chiede un risarcimento fino a 150.000 dollari per ogni opera violata. La causa sostiene che l'AI di Suno è stata addestrata su musica protetta da copyright senza permesso, permettendole di generare canzoni che imitano da vicino gli stili di artisti esistenti.
Suno ha negato queste accuse, con il CEO Shulman che ha dichiarato: "La nostra tecnologia è progettata per generare output completamente nuovi, non per memorizzare e rigurgitare contenuti preesistenti". L'azienda sostiene che il suo uso dei dati musicali per l'addestramento dell'AI rientra nel fair use.
L'esito di questa battaglia legale potrebbe avere implicazioni di vasta portata per l'industria della musica AI. Potrebbe creare precedenti su come le aziende di AI possono addestrare i loro modelli e su cosa costituisce un uso equo nell'era dell'apprendimento automatico. La risoluzione di questo caso potrebbe aprire le porte del contenuto generato dall'AI o limitare significativamente lo sviluppo di queste tecnologie.
Per ora, l'app iOS di Suno rappresenta un passo significativo nel portare la musica generata dall'AI alle masse. Mentre gli utenti iniziano a esplorare le sue capacità, il mondo della musica osserverà da vicino come questa tecnologia plasmerà il panorama sonoro di domani. Se questo segni l'inizio di una nuova era di espressione creativa o una sfida alle fondamenta stesse dell'arte musicale resta da vedere. Una cosa è certa: la melodia del futuro sarà composta sia da mani umane che da menti artificiali.
0.4 Il problema dei bot AI che ignorano le regole
Cloudflare, il provider di servizi cloud, ha lanciato un nuovo strumento gratuito per impedire ai bot di raschiare i siti web ospitati sulla sua piattaforma per ottenere dati per addestrare modelli di intelligenza artificiale.
Alcuni fornitori di servizi AI, tra cui Google, OpenAI e Apple, consentono ai proprietari dei siti web di bloccare i bot che utilizzano per il web scraping e l'addestramento dei modelli modificando il file robots.txt del loro sito, il file di testo che indica ai bot quali pagine possono accedere su un sito web. Ma, come sottolinea Cloudflare in un post che annuncia il suo strumento anti-bot, non tutti gli scraper AI rispettano questa regola.
"I clienti non vogliono che i bot AI visitino i loro siti web, e soprattutto quelli che lo fanno in modo disonesto", scrive l'azienda sul suo blog ufficiale. "Temiamo che alcune aziende di AI intenzionate ad aggirare le regole per accedere ai contenuti si adatteranno costantemente per eludere il rilevamento dei bot."
La soluzione di Cloudflare: modelli di rilevamento automatico dei bot
Per affrontare il problema, Cloudflare ha analizzato il traffico dei bot e dei crawler AI per mettere a punto modelli di rilevamento automatico dei bot. I modelli considerano, tra gli altri fattori, se un bot AI potrebbe cercare di eludere il rilevamento imitando l'aspetto e il comportamento di qualcuno che utilizza un browser web.
"Quando i malintenzionati tentano di scansionare i siti web su larga scala, generalmente utilizzano strumenti e framework che siamo in grado di identificare", scrive Cloudflare. "Sulla base di questi segnali, i nostri modelli sono in grado di contrassegnare in modo appropriato il traffico proveniente da bot AI evasivi come bot."
Cloudflare ha predisposto un modulo per gli host per segnalare i sospetti bot e crawler AI e afferma che continuerà a inserire manualmente i bot AI nella lista nera nel corso del tempo.
Il problema dei bot AI e la domanda di dati
Il problema dei bot AI è emerso in modo evidente con il boom dell'AI generativa che alimenta la domanda di dati per l'addestramento dei modelli.
Molti siti, diffidenti nei confronti dei fornitori di AI che addestrano modelli sui loro contenuti senza avvisarli o compensarli, hanno scelto di bloccare gli scraper e i crawler di AI. Secondo uno studio, circa il 26% dei primi 1.000 siti web ha bloccato il bot di OpenAI; un altro ha rilevato che più di 600 editori di notizie avevano bloccato il bot.
Tuttavia, il blocco non è una protezione infallibile. Come accennato in precedenza, alcuni fornitori sembrano ignorare le regole standard di esclusione dei bot per ottenere un vantaggio competitivo nella corsa all'AI. Il motore di ricerca AI Perplexity è stato recentemente accusato di impersonare visitatori legittimi per raschiare contenuti dai siti web, e si dice che OpenAI e Anthropic abbiano a volte ignorato le regole di robots.txt.
Strumenti come quello di Cloudflare potrebbero aiutare, ma solo se si dimostrano accurati nel rilevare i bot AI clandestini. E non risolveranno il problema più intrattabile degli editori che rischiano di sacrificare il traffico di riferimento da strumenti di AI come le AI Overviews di Google, che escludono i siti dall'inclusione se bloccano specifici crawler di AI.
0.5 Meta scuote il mondo dell'AI con modelli di predizione Multi-Token e Open-Source.
Meta ha lanciato il guanto di sfida nella corsa verso un'intelligenza artificiale più efficiente. Il gigante tech ha rilasciato mercoledì modelli pre-addestrati che sfruttano un nuovo approccio di predizione multi-token, potenzialmente cambiando il modo in cui i grandi modelli di linguaggio vengono sviluppati e implementati.
Questa nuova tecnica, delineata per la prima volta in un articolo di ricerca di Meta ad aprile, si discosta dal metodo tradizionale di addestrare gli LLM per prevedere solo la parola successiva in una sequenza. Invece, l'approccio di Meta incarica i modelli di prevedere simultaneamente più parole future, promettendo prestazioni migliori e tempi di addestramento drasticamente ridotti.
Democratizzare l'AI: promesse e pericoli dei modelli di linguaggio efficienti
La decisione di Meta di rilasciare questi modelli con una licenza di ricerca non commerciale su Hugging Face, una popolare piattaforma per i ricercatori di AI, si allinea con l'impegno dichiarato dell'azienda per la scienza aperta e Open Source. Ma è anche una mossa strategica nel panorama sempre più competitivo dell'AI, dove l'apertura può portare a un'innovazione più rapida e all'acquisizione di talenti.
I modelli di predizione multi-token fanno parte di una suite più ampia di artefatti di ricerca sull'AI rilasciati da Meta, che includono progressi nella generazione da immagine a testo e nel rilevamento del parlato generato dall'AI.
Il rilascio iniziale si concentra sui compiti di programmazione di codice, una scelta che riflette il crescente mercato degli strumenti di programmazione assistita dall'AI.
Implicazioni della svolta di Meta
Le implicazioni di questa svolta potrebbero essere di vasta portata. Mentre i modelli di AI crescono in dimensioni e complessità, il loro appetito vorace per la potenza di calcolo ha sollevato preoccupazioni sui costi e sull'impatto ambientale. Il metodo di predizione multi-token di Meta potrebbe offrire un modo per frenare questa tendenza, rendendo l'AI avanzata più accessibile e sostenibile.
Mentre la polvere si posa su questa notizia, la comunità dell'AI si appresta a fare i conti con le sue implicazioni. La predizione multi-token diventerà il nuovo standard nello sviluppo degli LLM? Può mantenere le sue promesse di efficienza senza compromettere la qualità? E come plasmerà il più ampio panorama della ricerca e dell'applicazione dell'AI?
🔧 AI Tools
1.1 Stability AI si scusa per il deludente Stable Diffusion 3 e promette un modello "molto migliorato" a breve
Stability AI, leader nella generazione di immagini AI open-source con Stable Diffusion, è finita sotto accusa per il rilascio di Stable Diffusion 3 "Medium". L'azienda ha ammesso che il lancio non ha soddisfatto le aspettative in termini di qualità e licenze. Gli utenti su piattaforme come Reddit hanno evidenziato vari problemi con SD 3, tra cui singolari difficoltà nel generare immagini di persone sdraiate sull'erba.
Stability AI afferma che i test interni iniziali avevano mostrato che Stable Diffusion 3 Medium superava SDXL in termini di aderenza al prompt, varietà, dettaglio e qualità complessiva. Tuttavia, la community ha rapidamente identificato punti deboli, come problemi con certe pose e parole raramente presenti nei dati di addestramento.
Lavori in corso per un modello ottimizzato
L'azienda sta ora lavorando per ottimizzare il modello e prevede di rilasciare una versione "molto migliorata" di SD3 nelle prossime settimane. Inoltre, stanno ricercando il modo migliore per utilizzare la nuova architettura e il nuovo modello, con l'intenzione di condividere le loro scoperte e quelle della community per ottimizzarne l'uso.
Stability AI sta anche affrontando le preoccupazioni riguardo i nuovi termini di licenza, più restrittivi rispetto alle versioni precedenti, rivedendo la licenza per i singoli creatori e le piccole imprese. Individui e organizzazioni possono installare ed eseguire i modelli di Stability AI sui propri dispositivi gratuitamente per scopi non commerciali, inclusi i ricercatori che pubblicano i loro risultati su riviste scientifiche.
L'uso commerciale gratuito è consentito anche per individui e piccole aziende con un fatturato annuo inferiore a un milione di dollari. Chi utilizza i modelli di Stability AI sotto la Licenza Community per creare prodotti derivati o integrare i modelli nei propri prodotti o servizi non deve pagare le tariffe di licenza sotto questa soglia di fatturato. Non c'è limite al numero di file multimediali che possono essere generati sotto questo accordo, ma l'azienda chiede agli utenti di compilare un breve modulo per scopi di tracciamento. Per l'uso commerciale di Stable Diffusion 3, le aziende hanno bisogno di una licenza enterprise solo se il loro fatturato annuo supera un milione di dollari.
Impegno verso il miglioramento
Nonostante le critiche iniziali, Stability AI sembra determinata a migliorare Stable Diffusion 3 e a venire incontro alle esigenze della sua community. Con un modello ottimizzato in arrivo e termini di licenza più favorevoli per i piccoli creatori, l'azienda spera di riconquistare la fiducia degli utenti e di continuare a guidare l'innovazione nel campo della generazione di immagini AI open-source.
1.2 ElevenLabs sfida Adobe con un “isolatore vocale” gratuito
ElevenLabs, la startup di AI vocale nota per i suoi modelli di clonazione della voce, text-to-speech e speech-to-speech, ha appena aggiunto un altro strumento al suo portfolio di prodotti: un AI Voice Isolator. Disponibile sulla piattaforma ElevenLabs a partire da oggi, consente di rimuovere rumori ambientali e suoni indesiderati da qualsiasi contenuto, dai film ai podcast o video di YouTube.
Voice Isolator arriva a pochi giorni dal lancio dell’app Reader da parte dell'azienda ed è gratuito (con alcune limitazioni). Tuttavia, gli utenti devono anche notare che la funzionalità non è qualcosa di completamente nuovo sul mercato. Molti altri fornitori di soluzioni creative, tra cui Adobe, hanno strumenti per migliorare la qualità del parlato nei contenuti. L'unica cosa che resta da vedere è quanto sia efficace Voice Isolator rispetto a loro.
Come funziona l'AI Voice Isolator?
Quando si registrano contenuti come un film, un podcast o un'intervista, i creators si imbattono spesso nel problema del rumore di fondo, dove suoni indesiderati interferiscono con il contenuto (immaginate persone che parlano a caso, vento che soffia o qualche veicolo che passa sulla strada). Questi rumori potrebbero non essere notati durante le riprese, ma possono influire sulla qualità del risultato finale, sopprimendo a volte la voce dell'oratore.
Per risolvere questo problema, molti tendono a utilizzare microfoni con cancellazione del rumore ambientale che rimuovono il rumore di fondo durante la fase di registrazione stessa. Fanno il loro lavoro, ma potrebbero non essere accessibili in molti casi, soprattutto ai creators che hanno appena incominciato e che hanno risorse limitate. È qui che entrano in gioco strumenti basati sull'AI come il nuovo Voice Isolator di ElevenLabs.
Migliorare l'audio in post-produzione
In sostanza, il prodotto funziona nella fase di post-produzione, dove l'utente deve solo caricare il contenuto che vuole migliorare. Una volta caricato il file, i modelli sottostanti lo elaborano, rilevano e rimuovono il rumore indesiderato ed estraggono un dialogo chiaro come output.
ElevenLabs afferma che il prodotto estrae il parlato con un livello di qualità simile a quello dei contenuti registrati in studio. Il responsabile del design dell'azienda, Ammaar Reshi, ha anche condiviso una demo in cui si vede lo strumento rimuovere il rumore di un soffiatore di foglie in modo da ottenere una traccia audio prima di rumori di fondo.
Walked into the @elevenlabsio London office today… 👀
What new feature are @_samsklar and @JustinHackneyai testing?
Wrong answers only.
— Ammaar Reshi (@ammaar)
11:00 PM • Jul 2, 2024
ElevenLabs dimostra ancora una volta la sua ambizione di diventare un player di riferimento nel settore dell'AI vocale, offrendo strumenti potenti e accessibili a creatori di ogni livello.
💡 Link Utili
Scopri l’Academy di Imparerai e tutte le risorse che abbiamo preparato per te! |
Scopri i migliori Tool di AI selezionati per te! |
Vuoi contattarci? Non aspettiamo altro! |
Sei arrivato alla fine!
La tua razione è completa!
Il tuo feedback è importante! Rispondi a questa email e raccontaci come potremmo migliorare questa newsletter.
Sei interessato a raggiungere i nostri lettori? Per diventare uno sponsor di Imparerai, scrivici qua!