Title: Etiquetador de expresiones multipalabra · Issue #2 · RedHenLab/NLP · GitHub
Open Graph Title: Etiquetador de expresiones multipalabra · Issue #2 · RedHenLab/NLP
X Title: Etiquetador de expresiones multipalabra · Issue #2 · RedHenLab/NLP
Description: Etiquetador de un léxico de expresiones multipalabra See description in English. Esta es una tarea de investigación sobre lenguaje y gestos asociada a la Biblioteca Internacional NewsScape de Noticias de Televisión. NewsScape es un recur...
Open Graph Description: Etiquetador de un léxico de expresiones multipalabra See description in English. Esta es una tarea de investigación sobre lenguaje y gestos asociada a la Biblioteca Internacional NewsScape de Notic...
X Description: Etiquetador de un léxico de expresiones multipalabra See description in English. Esta es una tarea de investigación sobre lenguaje y gestos asociada a la Biblioteca Internacional NewsScape de Notic...
Opengraph URL: https://github.com/RedHenLab/NLP/issues/2
X: @github
Domain: patch-diff.githubusercontent.com
{"@context":"https://schema.org","@type":"DiscussionForumPosting","headline":"Etiquetador de expresiones multipalabra","articleBody":"\u003ch3\u003eEtiquetador de un léxico de expresiones multipalabra\u003c/h3\u003e\n\n\n[See description in English](https://github.com/RedHenLab/NLP/issues/1).\n\nEsta es una tarea de investigación sobre lenguaje y gestos asociada a la [Biblioteca Internacional NewsScape de Noticias de Televisión](https://sites.google.com/site/distributedlittleredhen/home/tutorials-and-educational-resources/csa-overview). NewsScape es un recurso alojado por la Biblioteca de la Universidad de California Los Ángeles, y desarrollado por el [Grupo Red Hen](https://sites.google.com/site/distributedlittleredhen/) para la Investigación de la Comunicación Multimodal. Además de UCLA, Red Hen tiene nodos de grabación y equipos de investigación en Case Western Reserve University, University of Illinois at Urbana Champaign, Universidad del Sur de Dinamarca, Universidad de Oxford, Universidad de Osnabrück, Texas Tech, Instituto Nacional de Estudios Avanzados de Bangalore, Universidad de Navarra, Universidad de Murcia, y otros lugares (el consorcio está en constante crecimiento). NewsScape contiene más de 200.000 horas de noticias televisivas en inglés, español y otras lenguas europeas, indexadas por sus subtítulos (más de 3000 millones de palabras). Entre otras funciones, NewsScape es la primera base de datos de contenidos audiovisuales que permite realizar una búsqueda sincronizada de subtítulos e imagen, llevándonos al momento exacto del programa en que las palabras recogidas por los subtítulos fueron pronunciadas.\n\nHasta ahora los corpus lingüísticos de gran envergadura son casi exclusivamente escritos (Corpus of American English, corpus CREA y CORDE de la Real Academia Española, hemerotecas, etc.). NewsScape abre nuevos horizontes para el estudio de la comunicación oral en relación con la gran variedad de elementos que acompañan a la palabra: gesto, y entonación, además de, en el caso de la televisión, música, efectos de imagen y sonido, gráficos, etc. Por supuesto, NewsScape también permite seguir noticias, temas, declaraciones de personajes, etc. Estamos desarrollando herramientas de búsqueda y anotación automática y manual de patrones semánticos. Además de verbales, también estamos desarrollando herramientas de detección de rostros, de patrones visuales, de segmentos narrativos, etc. Los grupos de investigación de Navarra y Murcia están desarrollando el proyecto SCHEMOTIME, que compara lenguaje y gestos en la expresión de las emociones y del tiempo, dos conceptos centrales para teorías sobre metáfora y cognición. Además, la colaboración Navarra-Murcia lidera el desarrollo de NewsScape en español.\n\nEl objetivo final de esta tarea es escribir un programa que recibe como entrada un texto en lenguaje natural e identifica estructuras gramaticales en él.\n\nPosiblemente Python sea el lenguaje de programación más adecuado por las librerías disponibles (recomendamos [mwetoolkit](http://mwetoolkit.sourceforge.net)).\n\nUna primera parte de la tarea la ejecuta un proprocesador (que ya existe) que marca las distintas parte de la oración (sustantivos, adverbios, preposiciones, etc). \n\nLa segunda parte, que es el trabajo a realizar ahora, es encontrar esas construcciones premarcadas en un léxico de expresiones multipalabra. \n\nEl programa se utilizará inicialmente con textos tanto en inglés como en español. Si está bien planteado debe funcionar bien con prácticamente cualquier idioma y la calidad del resultado dependerá unicamente de la calidad del léxico. \n\nNo es objetivo de este proyecto preparar el léxico, que nos será suministrado de antemano, al igual que una cantidad considerable de ficheros de entrada.\n\nNo es necesario tener conocimientos avanzados de lengua: Lexemas, léxicos, tipos de oración, etc... es suficiente con una lectura rápida a las páginas relevantes de wikipedia o cualquier otra fuente.\n\nPor ejemplo, un texto (lo ponemos en inglés porque es para el que tenemos un léxico ya creado) podría ser:\n\n\"AND SO THE YEARS ROLLED BY.\"\n\nUna herramienta llamada BSP, del grupo de investigación CLiPS de la universidad de Amberes lo marca de la siguiente forma:\n\n\"and/CC/O/O/and|so/IN/I-ADVP/O/so|the/DT/I-NP/O/the|years/NNS/I-NP/O/year|rolled/VBN/I-VP/O/roll|by/RP/I-PRT/O/by|././O/O/.\"\n\nNo es importante entender aun estas anotaciones, lo importante es saber que existen y que es lo que usará el programa que hay que programar.\n\nLa lista de expresiones multipalabra del léxico se especifica mediante una combinación de listas de palabras y etiquetas.\n\nPor ejemplo, una expresión puede tener (en inglés) la estructura \"As + Unidad de tiempo + verbo de movimiento + preposición\", de la siguiente forma: As centuries float slowly by, As the seconds trickled past, As the holidays slowly snuck up on her. \n\nFijate que no es importante saber inglés: Lo importante es identificar correctamente la estructura utilizando la lista de palabras y etiquetas.\n\nEn el ejemplo, la construcción se sigue especificando así:\n- Una lista de palabras que indican unidad de tiempo, como afternoon, age, autumn, century, dawn, decade, evening, y November.\n- Una lista de verbos de movimiento, incluyendo fly, shuffle, sneak up, come tumbling down, y roll past.\n- La PREPOSICIÓN estará disponible en las etiquetas de partes de la oración.\n\nAsí que el léxico define la expresión multipalabra y el programa debe localizar esa expresión en el texto fuente. Son necesarios tres pasos:\n- Identificar la forma lematizada de cada palabra (los lemas están\n disponibles en las etiquetas de parte de la oración).\n- Comparar la lista de palabras del léxico con la palabra candidata \n del texto fuente.\n- Comparar las etiquetas del léxico con las identificadas en el texto\n fuente.\n\nLa aplicación final tendrá una arquitectura cliente-servidor (siendo la aplicación en sí misma la parte servidor) de forma que pueda ser utilizada como servicio por cualquier otro programa.\n\nEl proyecto tendrá mentores tanto en la Universidad de Navarra en España como en la Universidad de California en Los Ángeles. \n\n\u003ch3\u003eMuestra léxico de varias palabras expresiones de tiempo\u003c/h3\u003e\n\n\n\u003col\u003e\n\u003cli\u003e UNIDADES DE TIEMPO + VERBO (pasar, durar) + VPG/IN+(DT)+NN\n-La clase se pasó en un santiamén. –La película duró un suspiro.\n-La semana se ha pasado volando.\n\nUNIDADES DE TIEMPO: tarde, era, otoño, siglo, alba, amanecer, década, tarde, noche, vacaciones, hora, mediodía, medianoche, milenio, milésima de segundo, minuto, momento, mes, mañana (morning y tomorrow), periodo, época, segundo, primavera, verano, hoy, crepúsculo, ocaso, atardecer, anochecer, puesta de sol, semana, fin de semana, invierno, ayer. Lunes, martes, miércoles, jueves, viernes, sábado, domingo. Enero, febrero, marzo, abril, mayo, junio, julio, agosto, septiembre, octubre, noviembre, diciembre. \n\nTiempo nombres de procesos o entidades con duración: prorroga, partido, clase, película, vacaciones, relación, viaje, trayecto, vida, encierro, guerra, estancia, curso, conferencia, fiesta, velada, temporada, Navidades, carrera, visita, intermedio, recreo, concierto, trimestre, semestre, función, la primera/segunda/ultima parte, clase, jornada, obra, corto, verbena, cita, lección, explicación, audición, presentación, discurso. *Esta lista se puede ampliar\u003c/li\u003e\n\n\u003cli\u003e (PREPOSICIÓN: con, al, al cabo de…) + NOMBRE CON DURACIÓN TEMPORAL (pasar, el paso, transcurso, transcurrir) + UNIDAD DE TIEMPO + (ADJETIVO: lento/rápido). Equivalente a 2, 3, 4 en inglés cuando se combina con adverbio).\n-Con el pasar de los años. –Al transcurrir los años, a la larga, a largo/corto plazo, con el paso del tiempo\n-Con el (lento) transcurso de las décadas. - Al cabo de un tiempo\u003c/li\u003e\n\n\u003cli\u003e (PRONOMBRE PERSONAL) + VERBO (llevar/tomar/durar) + UNIDADES DE TIEMPO (mucho tiempo, poco tiempo, casi nada)/ADJETIVOS DE DURACIÓN TEMPORAL (lento/rápido/pesado/interminable/largo/corto/)\n-Nos llevó mucho tiempo. –Duró casi nada. – Os tomó poco tiempo.\n-Se hizo interminable.\u003c/li\u003e\n\n\u003cli\u003e VERBO DE INICIO/FINAL DE PROCESO (empezar/comenzar/terminar/finalizar) vs. VERBO CON VALOR EMOCIONAL (nacer/explotar/estallar/arrancar).\nEjemplos:\nLa guerra/revolución/revuelta empezó/estalló en el 36.\nLa persecución del cristianismo se cierra con el edicto de Milán.\n(Hay muchas cosas que pueden estallar: discusiones, peleas, crisis, tiroteo, tormenta)\nsinónimos de empezar: nacer, originar, germinar, abrir, brotar\nSinónimos de terminar: expirar, extinguir, declinar, morir, fenecer, decaer, amainar\u003c/li\u003e\n\nEl léxico se puede ampliar, pero preferimos hacer un piloto sólo con estas expresiones.\n","author":{"url":"https://github.com/Liontooth","@type":"Person","name":"Liontooth"},"datePublished":"2014-09-17T13:15:50.000Z","interactionStatistic":{"@type":"InteractionCounter","interactionType":"https://schema.org/CommentAction","userInteractionCount":0},"url":"https://github.com/2/NLP/issues/2"}
| route-pattern | /_view_fragments/issues/show/:user_id/:repository/:id/issue_layout(.:format) |
| route-controller | voltron_issues_fragments |
| route-action | issue_layout |
| fetch-nonce | v2:69deb0e8-ca96-d8b9-28d0-d9126ffead5e |
| current-catalog-service-hash | 81bb79d38c15960b92d99bca9288a9108c7a47b18f2423d0f6438c5b7bcd2114 |
| request-id | E4A2:1B3FAE:23EF01:2CA6F6:699068DE |
| html-safe-nonce | 1b5f8a2e25ea45a403c0e5f43992d8613af3e444de5201fafbb0054a25e44f62 |
| visitor-payload | eyJyZWZlcnJlciI6IiIsInJlcXVlc3RfaWQiOiJFNEEyOjFCM0ZBRToyM0VGMDE6MkNBNkY2OjY5OTA2OERFIiwidmlzaXRvcl9pZCI6IjE0OTU3MTIyMzAwMTc2NjA2IiwicmVnaW9uX2VkZ2UiOiJpYWQiLCJyZWdpb25fcmVuZGVyIjoiaWFkIn0= |
| visitor-hmac | 3cc30da8f42d42b30a17e26e51947cb3065b2ec20893c88efaa4a9f3170bcea3 |
| hovercard-subject-tag | issue:43009316 |
| github-keyboard-shortcuts | repository,issues,copilot |
| google-site-verification | Apib7-x98H0j5cPqHWwSMm6dNU4GmODRoqxLiDzdx9I |
| octolytics-url | https://collector.github.com/github/collect |
| analytics-location | / |
| fb:app_id | 1401488693436528 |
| apple-itunes-app | app-id=1477376905, app-argument=https://github.com/_view_fragments/issues/show/RedHenLab/NLP/2/issue_layout |
| twitter:image | https://opengraph.githubassets.com/4f976873e1abeed8d3eca3d868ee30e58ca1b44c6c9803c30c57d07319bef3b1/RedHenLab/NLP/issues/2 |
| twitter:card | summary_large_image |
| og:image | https://opengraph.githubassets.com/4f976873e1abeed8d3eca3d868ee30e58ca1b44c6c9803c30c57d07319bef3b1/RedHenLab/NLP/issues/2 |
| og:image:alt | Etiquetador de un léxico de expresiones multipalabra See description in English. Esta es una tarea de investigación sobre lenguaje y gestos asociada a la Biblioteca Internacional NewsScape de Notic... |
| og:image:width | 1200 |
| og:image:height | 600 |
| og:site_name | GitHub |
| og:type | object |
| og:author:username | Liontooth |
| hostname | github.com |
| expected-hostname | github.com |
| None | 42c603b9d642c4a9065a51770f75e5e27132fef0e858607f5c9cb7e422831a7b |
| turbo-cache-control | no-preview |
| go-import | github.com/RedHenLab/NLP git https://github.com/RedHenLab/NLP.git |
| octolytics-dimension-user_id | 8597243 |
| octolytics-dimension-user_login | RedHenLab |
| octolytics-dimension-repository_id | 23487070 |
| octolytics-dimension-repository_nwo | RedHenLab/NLP |
| octolytics-dimension-repository_public | true |
| octolytics-dimension-repository_is_fork | false |
| octolytics-dimension-repository_network_root_id | 23487070 |
| octolytics-dimension-repository_network_root_nwo | RedHenLab/NLP |
| turbo-body-classes | logged-out env-production page-responsive |
| disable-turbo | false |
| browser-stats-url | https://api.github.com/_private/browser/stats |
| browser-errors-url | https://api.github.com/_private/browser/errors |
| release | 3b33c5aedc9808f45bc5fcf0b1e4404cf749dac7 |
| ui-target | full |
| theme-color | #1e2327 |
| color-scheme | light dark |
Links:
Viewport: width=device-width