Hey, Siri

 
 
El dimecres 27 de febrer del 2019, vaig anar a una de les conferències del 4YFN, anar a les conferències és molt i molt recomanable, escoltes opinions, pots interactuar després i, això és important, pots seure una estona!
 
Bé, la conferència a l’Agora Stage, dins l’ESADE Speaker Series, tenia per títol ’Natural Language Understanding’ i jo hi vaig anar per veure com estaven els treballs més avançats (el que en diuen ’state of the art’) perquè els ordinadors ens entenguin quan els parlem, en anglès of course.
 
Els actors eren importants i coneixedors del tema, coordinava la presentació Luis Vives, professor d’Esade, i van participar Maria Perillo, d’ABA English, Stepehn Mallik, Founder i CEO d’Artie, Javier Pemán d’IBM i Brian Subirana del MIT.
 
Primer de tot, ja que la fira porta per nom 4FYN, dir que tots van coincidir que d’aquí a quatre anys serà normal que parlem ‘naturalment’ als nostres dispositius, en anglès segur que ho podrem fer, en català ho tenim més pelut, i que, i això és important 🙂, quan els hi parlem ells ens entendran. Aquesta serà la interfície natural, aneu-vos oblidant dels teclats.
 
ABA English és una empresa que ha treballat amb el MIT i són responsables d’ensenyar a entendre Alexa el que nosaltres li diem i de fer un programa per ensenyar anglès via Alexa
 
Artie és una empresa dedicada a aplicar la veu a llocs webs o apps ja existents (ArtiE is a tool for building Voice Intelligent applications) són el primer pas perquè la veu arribi als webs.
 
IBM no cal que us expliqui qui és, però potser sí que cal explicar que està jugant molt fort en el mercat de veu amb el seu assistent Watson. El públic en general no ho coneix perquè estan enfocats al mercat professional i, especialment, ofereixen API perquè els desenvolupadors facin aplicacions però són molt potents en el desenvolupament d’apps de veu.
 
I deixo pel final el MIT, que tampoc cal explicar qui és, però sí que cal dir que estan fent estudis amb el llenguatge natural i, especialment, el que ells en diuen ‘Own your digital voice’ i que, amb les seves reflexions em van posar els pèls de punta.
 
 
 
Avui hi ha tres grans actors, Alexa d’Amazon, Siri d’Apple i Google, un altre en l’àmbit professional que és Watson d’IBM, el Cortana de MIcrosoft que fa el que pot i finalment, el Sigmunt del MIT, amb el que ells anomenen Open Voice i que reclama que siguem propietaris de la nostra veu. Sincerament, mai hauria pensat que hauria d’escriure per explicar i demanar que la nostra veu és nostra o, com ells diuen: ‘MIT Open Voice is dedicated to the creation of a new, open source standard for voice recognition devices. We are building the tools to give every individual and organization a voice in the exciting new world of smart devices.?
 
 
 
Fotos dels altaveus ‘espavilats’ d’Amazon, Google i Apple
 
 
Més o menys els hem pogut fer servir i de moment ens intenten entendre, però com funciona tot això? El sistema de reconeixement de veu necessita una gran potència de càlcul i una base de dades encara més gran per donar resposta a la pregunta o executar una ordre i per això, posem l’exemple de Siri, quan parlem al nostre telèfon o a l’altaveu la nostra veu s’envia a Apple que la tracta per donar-nos una resposta. I què fa Apple, o Amazon o Google amb la nostra veu?, per moltes vegades que se’ls hi ha preguntat, cap d’ells ha volgut donar una resposta.
 
Penseu en el que diu de nosaltres la nostra veu: alegria, ràbia, por, tots els nostres sentiments que poden ser inferits, o seran inferits, segur, pels servidors de tots aquests gegants. Si penseu que ara Google, per posar un exemple, sap massa de nosaltres només analitzant els mails que escrivim o les cerques que fem, imagineu a on poden arribar amb l’anàlisi dels nostres sentiments. Li donarem a Amazon, i als altres, l’opció de què, sabent com estem d’ànims en un moment determinat, ens puguin intentar vendre un producte o altre?
 
Qui li dirà a Amazon que quan li demanem alguna cosa a Alexa que no ens enviï a la seva botiga?, o, com ja passa, quan li demanem a Siri que ens posi alguna música d’Spotify, qui li dirà que no ens contesti que sí que ho pot fer amb el servei de música en streaming d’Apple?
 
Tothom està treballant perquè els ordinadors entengui la nostra veu però sembla que molt pocs, el MIT un d’ells, estan treballant perquè puguem seguir mantenint la nostra privadesa i que la veu sigui nostra. Si voleu ajudar-los, aneu a la seva pàgina d’enregistrament de veus, seleccioneu ‘català’ i aneu parlant per omplir una basa de dades ‘oberta’ d’exemples de veu que us podeu descarregar.