"O pasado ano botou a andar o proxecto Telepares, no que participan tres grupo de investigación das universidades de Vigo, Compostela e A Coruña. Telepares traballa no que se coñece como minería de opinións,
unha técnica que busca determinar automaticamente se nun texto se opina
ou non e se a opinión é positiva ou negativa. En concreto, o proxecto
galego centra os seus esforzos en desenvolver ferramentas que analicen
de xeito automático microtextos coma os que se empregan en twitter e
outras redes sociais.
O grupo detrás de Telepares non só suma os esforzos das tres
universidade galegas, senón que tamén é multidisciplinar, integrando
investigadores das áreas de Lingüística, Tradución, Ciencias da
Computación e Intelixencia Artificial.
Á fronte desta iniciativa está o
profesor vigués Manuel Vilares, do Grupo de Compiladores e Linguaxes,
que sinala que o obxectivo final é desenvolver un sistema efectivo de
análise de opinións en español e galego para as redes sociais.
“Para iso
é preciso mellorar o rendemento das técnicas actuais de análise sobre
texto estándar, deseñar mecanismos de adaptación a microtextos daqueles
modelos e métodos de análise que son máis efectivos”, di. Falamos con
el.
Primeiro de nada, para os non iniciados: que é a minaría de opinións?
Trátase de extraer, do xeito semellante a como facemos os humanos, o
sentimento das nosas verbas. De feito, tamén se denomina a este dominio
de traballo análise do sentimento. Tecnicamente, o que se
pretende é asociar un significado, unha semántica, á mensaxe recibida
dende un interlocutor.
Máis en concreto, para interpretar unha frase non
abonda con recoñecer as verbas, nin sequera con ligalas correctamente
en frases... hai que entender o que esa frase di, o que expresa
realmente, o que pretende transmitir. É por tanto necesario construír
unha representación do seu sentido, para poder almacenala e interpretala
por un sistema se fose preciso.
Unha vez cumprido ese obxectivo as
posibilidades son infinitas porque teremos sentado as bases dunha
interacción real cun sistema informático. Poderemos transmitir non só
coñecementos, senón tamén intencións analizables pola máquina. Esta estará en condicións de reaccionar ao estímulo da nosa mensaxe, o que significa que poderá responder mediante unha acción, mesmo de carácter físico.
Como levan as máquinas a interpretación, por exemplo, da retranca e doutros mecanismos -entendo que complexos- de expresión?
Mal, de feito a maioría de traballos neste senso céntranse en simples
técnicas de puntuación positiva/negativa do senso das verbas. Por
exemplo, se nunha frase aparecesen as verbas "bo" e "xenial", o sistema
deduciría un actitude positiva do interlocutor fronte ao concepto que
manexa nese intre.
Se logo incluíra unha verba "mal", restariamos algún
punto e así poderíamos deducir o senso final. Obviamente, este tipo de
estratexias non poden manexar a retranca de xeito fiable. Esa é
xustamente a razón pola que as nosas ferramentas van máis aló, estudando
a estrutura lingüística profunda da mensaxe.
Se ben a idea é simple, a posta en marcha resulta extremadamente
complexa. A linguaxe humana, tamén coñecida como linguaxe natural, está
moi lonxe de parecerse aos sinxelos e case que triviais linguaxes de
programación, tamén denominados artificiais, nos que estamos obrigados a
implementar os nosos algoritmos actualmente.
Abonda con pensar nas
argucias lingüísticas que todos manexamos na nosa vida diaria e que nos
parecen tan simples, cando non o son en realidade. Como analizar unha
metáfora? Como diferenciar unha ironía ou un segundo sentido? Como
detectar unha grosería, unha ameaza, un xesto amable ou unha delicada
insinuación? Como reaccionar a unha ambigüidade? Como resolver unha,
aparentemente, trivial anáfora? ... e tantos outros que deixamos no
tinteiro.
Como se mellora a ferramenta? Como aprende?
O camiño para se enfrontar a estes desafíos non é outro que o de
intentar aprender coma un neno o fai cando comeza a falar. Basicamente
temos que dotar o sistema dunha capacidade de análise léxica, sintáctica
e semántica.
O primeiro resulta relativamente sinxelo, pero só porque
xa nos leva aos límites tanto do noso coñecemento da linguaxe coma dos
recursos computacionais e algorítmicos coñecidos. A sintaxe e a
semántica son xa outra dimensión, a cada unha mais complexa. No primeiro
caso hai que botar man do coñecemento lingüístico, o que aconsella
integrar a persoal experto nestas problemáticas nos equipos, que decote
son interdisciplinares, coma no noso caso.
Aínda así, a cantidade de
información e de estruturas da lingua a dixerir é tal que resulta
inevitable recorrer á estatística e á Intelixencia Artificial. Algo tan
aparentemente doado como esbozar unha gramática que modelize as nosas
frases mais básicas pode implicar o deseño de decenas de miles de
regras, e iso só para representar unha pequena parte da nosa linguaxe.
Dependendo do nivel de recoñecemento do léxico e da sintaxe, podemos
pensar entón en analizar realmente o sentimento das mensaxes, o que pasa
primeiro por unha fase de aprendizaxe e adquisición do coñecemento.
Trátase aquí non só de explorar todas as posibles relacións entre as
estruturas lingüísticas implicadas a partir da propia mensaxe, senón
tamén de buscar outras que poden ser engadidas a partir de bases de
datos resultado de anteriores análises.
Grosso modo, a idea é
simular o proceso de aprendizaxe humano para xerar unha estrutura
conceptual que permita almacenar a información e usala cando proceda,
ben en resposta a unha consulta ben como reacción á propia mensaxe.
Cada día lévanse a cabo millóns de conversas nas redes sociais.
Pódese dicir hoxe en día que a opinión/información publicada en medios
de comunicación (de masas ou persoais) é só a punta do iceberg das
opinións publicadas na rede?
Sen dúbida. E iso que resulta evidente que non reflectimos todo o que
facemos nas redes, aínda que o fluxo de información actual é inabarcable
dende unha perspectiva puramente humana.
Comentades que este tipo de ferramentas están máis avanzadas en
inglés, e menos en castelán ou galego. En que fase estamos nestas dúas
linguas?
Tecnoloxicamente os grupos que conforman este proxecto están
recoñecidos internacionalmente coma punteiros, desenvolven de continuo
novos algoritmos dende hai case que vinte anos en todos os niveis de
análise da linguaxe e a miúdo son seguidos, por utilizar unha
expresión amable, por outros con bastante menos prestixio e bastante
máis apoio institucional no noso país.
O problema é a xeración de
recursos para o adestramento das ferramentas informáticas. É evidente
que unha comunidade como a inglesa, moito máis numerosa que a galega é
quen de producir máis material para este fin.
No que se refire o
castelán, o problema é de salto tecnolóxico e apoio á I+D, algo
notoriamente mellorable no ámbito hispano. Tanto é así que parte dos
nosos esforzas están agora orientados á predición do rendemento en algoritmos de aprendizaxe automática, coa fin de reducir a nosa debilidade a este nivel.
Cal é a actividade e obxectivos de Telepares?
O desenvolvemento de técnicas de minaría de opinións no ámbito dos microtextos (twitter e similares), onde ás dificultades xa comentadas hai que engadir a pouca lonxitude das mensaxes e o uso de expresións exóticas coma os emoticonos. Todo iso complica enormemente a análise e require de ferramentas desenvolvidas especificamente con ese fin.
Que aplicacións prácticas está tendo xa a análise de sentimento? Cales pode chegar a ter?
Úsase en tres niveis fundamentais: administración pública, empresas e
servizos de intelixencia. No primeiro e segundo caso trátase de captar a
opinión dos cidadáns ou clientes en relación a un servizo ou produto.
Unha aplicación clara son as enquisas electorais, onde podo dicir con
certo orgullo que as nosas estimacións non caeron nos erros das
facilitadas polas empresas especializadas.
No que se refire aos servizos
de intelixencia, podemos deixar voar a imaxinación, pero como consello
os usuarios das redes deberían ser coidadosos co que reflicten nos seus
perfís e intervencións.
Como xa dixen, estamos a abrir a porta non só
dunha verdadeira interacción cos sistemas informáticos senón que tamén
da posibilidade real de construír contornas con capacidade autónoma de
aprendizaxe e resposta a estímulos verbais externos. Dende logo o camiño
é longo, pero o neno xa deu os primeiros pasos." (Praza Pública, Marcos Pérez Pena, 13-07-16)
No hay comentarios:
Publicar un comentario