De Buenos Aires, Argentina, al Kurdistán Iraquí: Mi rol en Google para la inclusión del Kurdo Sorani en la Inteligencia Artificial

Las transformaciones tecnológicas de vanguardia suelen asociarse a laboratorios hiperfinanciados en Silicon Valley, donde algoritmos de última generación y clústeres de computación masiva dictan el rumbo de la evolución digital. Sin embargo, los hitos que verdaderamente redefinen la estructura de la Web y democratizan el conocimiento no siempre nacen de directivas corporativas de arriba hacia abajo. Con frecuencia, emergen en la periferia, en la intersección entre la persistencia humana aislada y la gestión institucional en redes globales. Lo que comienza como una notificación privada en la bandeja de entrada de un teléfono celular puede consolidarse, años más tarde, en un caso de estudio internacional de soberanía lingüística e inclusión algorítmica.

César Romero - Google Crowdsource

Mi nombre es César Romero. Desde la provincia de Buenos Aires, Argentina, me he desempeñado como estratega y líder comunitario dentro del ecosistema de Google Crowdsource, una plataforma global desarrollada para optimizar, validar y auditar los modelos de aprendizaje automático (Machine Learning) y las arquitecturas de Inteligencia Artificial de la compañía mediante la colaboración abierta y distribuida. Mi enfoque siempre ha sido claro: el entorno digital debe reflejar la pluralidad cultural de la humanidad. Las lenguas no solo valen por el tamaño de su mercado publicitario o el producto interno bruto de las naciones que las albergan; poseen un valor intrínseco como vehículos de identidad, conocimiento e institucionalidad jurídica.

Hacia finales del año 2019, la gestión de comunidades que lideraba en la región me otorgó cierta proyección en los canales internos globales de la plataforma. En ese escenario de hiperconectividad recibí un mensaje directo que reconfiguraría mis prioridades profesionales. Desde Halabja, una ciudad de profunda relevancia histórica en el Kurdistán Iraquí, me escribió Bokan Hassan (reconocido en el ecosistema tecnológico de Medio Oriente como Bokan Jaff). Cargaba consigo un volumen considerable de datos crudos compilados de manera independiente y una meta clara: forzar la inclusión del kurdo sorani en los sistemas neuronales de Google Translate.

Bokan me transmitió el aislamiento técnico en el que se encontraba su comunidad. Durante años había trabajado sin apoyo corporativo, guiado por la convicción de que el silenciamiento digital de una lengua equivale a su marginación histórica. Requería un canal institucional interno, un nexo que validara sus esfuerzos ante las gerencias de ingeniería de la empresa y que tradujera las demandas comunitarias en métricas viables bajo los estándares corporativos globales. Aquella conversación inicial dio paso a un esquema de cooperación intercontinental, asumiendo desde Argentina la contraparte estratégica de una de las campañas de recolección de datos más complejas de los últimos años.

La paradoja del Kurdo Sorani: Oficialidad constitucional vs. exclusión digital

Para comprender la magnitud científica y social de este proyecto, es indispensable analizar la naturaleza lingüística del kurdo sorani (کوردیی سۆرانی), también clasificado como kurdo central. Se trata de una lengua aglutinante hablada por una población estimada de entre siete y diez millones de ciudadanos, concentrados predominantemente en el norte de Irak y el oeste de Irán. Desde una perspectiva jurídica, el idioma goza de un estatus sólido: el Artículo 4 de la Constitución de la República de Irak de 2005 lo consagra explícitamente como idioma oficial del Estado junto al árabe, ordenando su uso en instituciones gubernamentales, documentos oficiales y programas educativos.

Sin embargo, las dinámicas de la industria del software operaban bajo una inercia diferente. En la disciplina del Procesamiento del Lenguaje Natural (NLP), el sorani era tipificado técnicamente como un Low-Resource Language (Idioma de bajos recursos). Esto implica una ausencia crítica de datos disponibles en la Web abierta: falta de textos paralelos alineados, carencia de diccionarios estructurados y una cantidad insuficiente de corpus lingüísticos digitalizados que permitieran el entrenamiento supervisado de redes neuronales.

Mientras sistemas robustos como el árabe o el persa absorbían la totalidad de los recursos de desarrollo en la región, los hablantes de sorani enfrentaban barreras para acceder a traducciones automáticas precisas en ámbitos críticos como la medicina, los derechos humanos, la administración pública y la educación superior. La falta de presencia en las herramientas de traducción global no constituía meramente un inconveniente de experiencia de usuario; se trataba de un vacío de representatividad que profundizaba la brecha digital en una comunidad geopolíticamente vulnerable.

La complejidad lingüística subyacente: El kurdo sorani utiliza una variante modificada del alfabeto perso-arábico de 36 caracteres, incorporando diacríticos específicos que complican los procesos tradicionales de tokenización (división del texto en unidades mínimas). Su estructura morfológica aglutinante permite combinar raíces, prefijos y clíticos en una sola palabra compleja, elevando la tasa de vocabulario fuera de diccionario (Out-Of-Vocabulary) en los modelos predictivos estándar si no se dispone de un corpus exhaustivo.

El Factor Estratégico: Cómo articulé el puente técnico entre una causa comunitaria y la ingeniería de Silicon Valley

La viabilidad de este proyecto no dependía únicamente de apelaciones al valor cultural del idioma; requería la construcción de un caso de uso, de producto y de factibilidad técnica plenamente alineado con los exigentes mapas de ruta de una organización global. En el desarrollo de software a gran escala, las decisiones de infraestructura se guían por métricas de impacto, mitigación de riesgos operativos y escalabilidad de los sistemas.

Ahí es donde radicó el núcleo de mi estrategia: mi tarea no fue la traducción de contenidos, sino la articulación institucional necesaria para adaptar una demanda local al lenguaje de viabilidad técnica, cumplimiento institucional y estrategia de producto de Google.

Para viabilizar la integración del kurdo sorani en los planes de desarrollo, estructuré la fundamentación del proyecto sobre tres ejes estratégicos fundamentales:

  1. Alineación con el Marco Constitucional y Gobernanza Institucional: Uno de los argumentos en defensa de la inclusión se centró en el estatus legal del idioma y el reconocimiento oficial que ya tenía en el país. Presenté ante los equipos globales el estatus formal del sorani, demostrando que no se trataba de una variante menor o un dialecto informal, sino de una lengua oficial del Estado de Irak, ratificada en el Artículo 4 de su Constitución de 2005. Sostuve que para garantizar la precisión institucional de las herramientas de traducción en la esfera pública y el cumplimiento de las normativas locales de cooficialidad de las naciones soberanas, los modelos de lenguaje debían reflejar de manera exacta este ordenamiento jurídico. Esto transformó la propuesta de una iniciativa comunitaria a un paso clave para la representatividad jurídica e institucional de la plataforma en la región.
  2. Rompiendo el sesgo de datos: El "Business Case" de los idiomas de bajos recursos: En las disciplinas de Procesamiento del Lenguaje Natural (NLP), los idiomas de bajos recursos suelen enfrentar el desafío de baja tracción digital inicial en la Web abierta. Para superar este sesgo metodológico, orienté el análisis hacia la demografía real y el ecosistema offline. Sustenté la existencia de una comunidad usuaria potencial de entre siete y diez millones de hablantes nativos. Argumenté que la solidez global de Google Translate se consolidaría de manera decisiva al cubrir un vacío técnico sobre una población de esa magnitud, la cual ya poseía un entorno activo de universidades, administraciones públicas, editoriales y medios de comunicación con una demanda latente de infraestructura informática.
  3. Optimización del Pipeline Operativo y Eficiencia en la Adquisición de Datos: Uno de los principales desafíos para los científicos de datos al integrar un low-resource language es el elevado costo operativo y logístico de compilar, alinear y auditar corpus lingüísticos de alta fidelidad desde cero. Consciente de estas limitantes de recursos y tiempos de ingeniería, la propuesta técnica ofreció una solución directa: presenté el proyecto garantizando que la comunidad en el territorio, bajo la coordinación de Bokan Hassan, ya contaba con la capacidad logística e institucional para aplicar protocolos estrictos de recolección y validación cruzada por pares. Le facilitamos a Google un flujo de datos masivos, limpios y pre-estructurados bajo sus propios estándares de ingeniería, absorbiendo la complejidad técnica de la fase de campo y demostrando la viabilidad económica del proyecto.

Al articular estos tres vectores —legitimidad constitucional, volumen demográfico y una solución eficiente en la ingesta de datos—, logramos transformar una necesidad local en un proyecto viable, escalable y prioritario para los equipos globales de producto.

Ciencia de datos aplicada al territorio: La creación del corpus lingüístico

Una vez obtenido el aval técnico interno, la responsabilidad operativa se trasladó al Kurdistán Iraquí. Bokan Hassan fundó y lideró formalmente la comunidad de Google Crowdsource en Irak, estructurando un despliegue de recopilación de datos que se apoyó plenamente en la organización civil. Durante años, en paralelo a su desempeño laboral en el sector privado de las telecomunicaciones, coordinó una red integrada por académicos, filólogos, estudiantes universitarios y voluntarios de la sociedad civil.

El núcleo del trabajo radicó en la Construcción y Validación de Corpus Lingüísticos. Para mitigar el riesgo de introducción de datos corruptos o traducciones erróneas (data poisoning), se implementó un sistema distribuido de verificación cruzada por pares (peer validation). Cada segmento de texto traducido debía ser auditado de manera independiente por múltiples hablantes nativos antes de ser catalogado como válido para el pipeline de entrenamiento de la Inteligencia Artificial.

El volumen total de los datos procesados documenta la magnitud de esta movilización comunitaria:

Métrica Estructural Volumen de Datos Impacto en la Arquitectura NLP
Dataset de Cadenas de Texto Más de 2,500,000 unidades de texto traducidas Optimización de Modelos de Traducción Neural (NMT)
Corpus de Audio Validado Más de 1,000 registros fonéticos de hablantes nativos Entrenamiento de Sistemas de Reconocimiento del Habla (ASR)
Mapeo de Locuciones Locales Modismos, frases idiomáticas y proverbios regionales Alineación semántica y desambiguación contextual
Estructuración Temporal 7 años de recopilación y auditoría continua Estabilidad temporal y reducción de alucinaciones en modelos

La capacidad de la comunidad local para organizarse y generar el corpus lingüístico necesario para su inclusión en la era algorítmica demuestra el impacto social del proyecto. De esta manera, las herramientas tecnológicas se transformaron en un canal fundamental para garantizar la vigencia y la preservación de la identidad regional.

El hito de la traducción Zero-Shot Machine Translation

El resultado tangible de este proceso se formalizó globalmente el mayo de 2022. Google anunció la integración de 24 nuevos idiomas en su plataforma de traducción, elevando el catálogo total de la herramienta. El kurdo sorani fue incorporado de manera oficial.

Este despliegue representó un avance técnico significativo para la disciplina de la lingüística computacional, al basarse en la implementación de modelos de Traducción Automática Zero-Shot (Zero-Shot Machine Translation). En las arquitecturas tradicionales de traducción neural, el sistema requiere un entrenamiento basado en ejemplos paralelos directos (por ejemplo, textos idénticos en inglés y sorani). La tecnología Zero-Shot permite que un modelo multilingüe masivo asimile la sintaxis y semántica del sorani de forma monolingüe, infiriendo las reglas de traducción hacia cualquier otro idioma sin requerir mapeos bilingües previos para cada par lingüístico.

La repercusión en la esfera pública de Medio Oriente fue inmediata. El Primer Ministro del Gobierno Regional del Kurdistán, Masrour Barzani, emitió declaraciones institucionales celebrando la medida como un avance histórico para los derechos culturales de la región. Agencias informativas internacionales especializadas en economías emergentes como Rest of World y cadenas de noticias regionales como Kurdistan 24 documentaron el impacto social de la actualización.

El reconocimiento corporativo explícito quedó asentado en los canales oficiales de Google Crowdsource, donde en sus apartados de liderazgo global (Community Spotlight) se destacó el rol conductor de Bokan Hassan y los validadores de campo Medya Ghazizadeh, Roshna Omer Abdulrahman, Saman Vaisipour y Sarchia Khursheed. En dicho documento de visibilidad internacional, Bokan consignó el origen de la iniciativa:

"Un caballero en particular, César Romero de Argentina, me introdujo formalmente a la plataforma e hizo que nuestra necesidad de tener una voz para el kurdo sorani fuera escuchada".

— Bokan Hassan, Google Crowdsource Blog

Ver mi nombre y mi procedencia geográfica asociados a un hito de esta envergadura, con la certeza de que mi labor consistió en escuchar, validar técnicamente una demanda justa y construir un canal institucional entre dos realidades tan distantes, representa uno de los logros más significativos de mi trayectoria en la gestión de comunidades tecnológicas.

Validación científica: El respaldo metodológico detrás del proyecto

El impacto del trabajo desarrollado junto a Bokan trasciende la comodidad operativa de un software de traducción. Modificó el paradigma de gobernanza de datos dentro de las grandes compañías tecnológicas, demostrando que el crowdsourcing comunitario y éticamente estructurado es una metodología válida para el entrenamiento de grandes modelos de lenguaje (LLMs) enfocados en lenguas de bajos recursos, eliminando la dependencia exclusiva de costosas campañas de digitalización centralizadas.

En la actualidad, este esfuerzo conjunto se consolida como un caso de estudio referenciado en la literatura científica especializada en NLP y lingüística computacional:

  • Creación de Datasets y Análisis Comparativo: Los desafíos de normalización ortográfica del sorani y el entrenamiento de modelos de transferencia de aprendizaje son analizados en profundidad en el artículo de investigación Named Entity Recognition for the Kurdish Sorani Language: Dataset Creation and Comparative Analysis, accesible a través del repositorio científico global arXiv:2511.22315.
  • Optimización de Modelos sobre Script Árabe Modificado: En las actas del prestigioso foro internacional 2nd Workshop on NLP for Languages Using Arabic Script, se publicó la investigación A Fine-Tuned Approach for Kurdish Authorship Identification, que detalla pruebas de rendimiento avanzadas utilizando la arquitectura XLM-RoBERTa sobre textos en sorani, indexada en la biblioteca científica de la Association for Computational Linguistics (ACL Anthology).
  • Repositorios Públicos de Investigación en Datos: La estructuración de los corpus y la validación metodológica para este dialecto específico forman parte de los índices académicos públicos del National Center for Biotechnology Information (NCBI / PubMed Central) bajo el registro PMC12266528.
  • Consolidación Institucional Académica: En septiembre de 2024, la prestigiosa Universidad de Sulaimani (University of Sulaimani) otorgó un reconocimiento académico formal a Bokan Hassan por sus contribuciones científicas a la preservación digital del idioma. Como fundador de la comunidad de datos en Irak, Bokan ha sido invitado a exponer este modelo de recolección ética de información en las sedes corporativas de Google en Mountain View (Estados Unidos), Singapur, India y Japón.

Para los ciudadanos del Kurdistán, la presencia de su lengua materna en las interfaces globales de traducción representa un ejercicio de soberanía digital. Permite que un estudiante universitario en Erbil o Sulaimani acceda a la literatura científica internacional en tiempo real; facilita las labores operativas de los organismos de asistencia humanitaria en el terreno; y asegura que las nuevas generaciones de la diáspora kurda en el mundo puedan interactuar con su patrimonio cultural mediante las herramientas informáticas cotidianas.

Reflexión final: La primacía de la gobernanza de datos humana

Este recorrido de más de un lustro deja una enseñanza clara para la industria del software: tendemos a sobredimensionar la autonomía técnica de las líneas de código y a subestimar el peso fundamental de la gestión humana y la escucha activa. Los sistemas de Inteligencia Artificial más avanzados son estériles sin una base de datos de alta calidad que los respalde. Y la recolección de esos datos en entornos complejos no depende de algoritmos, sino de la legitimidad de los líderes comunitarios en su territorio y de la construcción de puentes institucionales transparentes que conviertan la periferia en un actor central del desarrollo informático.

Cada vez que un usuario ejecuta una traducción instantánea desde o hacia el kurdo sorani, se activa un complejo entramado de inferencia neuronal en servidores remotos. Sin embargo, detrás de la precisión de esos parámetros matemáticos permanece viva una historia de resiliencia comunitaria. Está el esfuerzo de un pueblo que se negó a aceptar la invisibilidad digital, la lucidez técnica de un líder como Bokan Hassan, y la constatación de que las líneas de código no tienen patria cuando se orientan hacia la democratización universal del conocimiento.


📌 Fuentes, Enlaces Directos y Referencias Documentales

  • Anuncio Técnico de Google Translate (Mayo 2022): Documentación oficial sobre la integración de las 24 nuevas lenguas y la arquitectura de traducción *Zero-Shot* en el blog corporativo global de la compañía: Google The Keyword - 24 New Languages Overview. El registro de soporte técnico de la actualización puede consultarse en Google Translate Help Center.
  • Crónica Biográfica Oficial de la Comunidad (Mención a César Romero): Entrevista institucional completa que detalla el nexo estratégico establecido entre Argentina y Halabja para el entrenamiento de los modelos de lenguaje: Google Crowdsource About Blog - Community Spotlight: Meet Bokan Hassan from Kurdistan (Iraq).
  • Ensayo Científico sobre Reconocimiento de Entidades (NER): arXiv:2511.22315. *Named Entity Recognition for the Kurdish Sorani Language: Dataset Creation and Comparative Analysis*. Estudio detallado sobre los desafíos sintácticos y el modelado de datos para el dialecto central.
  • Publicación en el Repositorio Internacional ACL Anthology: Association for Computational Linguistics (ACL). *A Fine-Tuned Approach for Kurdish Authorship Identification*. Análisis especializado de modelos XLM-RoBERTa aplicados al procesamiento de scripts árabes modificados.
  • Repositorio Nacional de Datos Científicos (EE. UU.): Registro indexado sobre la estructuración y validación del corpus lingüístico del kurdo central: National Institutes of Health / PubMed Central (PMC12266528).
  • Monitoreo de Impacto Sociotecnológico: Reportes periodísticos especializados sobre la inclusión lingüística en mercados emergentes en Rest of World y crónicas institucionales en Kurdistan 24.
  • Aval Académico Regional: Registro de programas de investigación en lingüística computacional y preservación cultural en el portal oficial de la Universidad de Sulaimani (University of Sulaimani).
⚠️ Aviso: La información publicada en este sitio es de carácter general y con fines educativos. No constituye asesoramiento profesional ni reemplaza la consulta con un especialista.

Comentarios

Artículos más leídos :

Emojis de Monos para Twitter

Malware móvil iguala por primera vez en la historia al de escritorio