De Buenos Aires, Argentina, al Kurdistán Iraquí: Mi rol en Google para la inclusión del Kurdo Sorani en la Inteligencia Artificial

Las transformaciones tecnológicas de vanguardia suelen asociarse a laboratorios hiperfinanciados en Silicon Valley, donde algoritmos de última generación y clústeres de computación masiva dictan el rumbo de la evolución digital. Sin embargo, los hitos que verdaderamente redefinen la estructura de la Web y democratizan el conocimiento no siempre nacen de directivas corporativas de arriba hacia abajo. Con frecuencia, emergen en la periferia, en la intersección entre la persistencia humana aislada y la gestión institucional en redes globales. Lo que comienza como una notificación privada en la bandeja de entrada de un teléfono celular puede consolidarse, años más tarde, en un caso de estudio internacional de soberanía lingüística e inclusión algorítmica.

En las oficinas de Google

Mi nombre es César Romero. Desde la provincia de Buenos Aires, Argentina, me he desempeñado como Crowdsource Influencer en el programa global de entrenamiento de la Inteligencia Artificial de Google (Google Crowdsource). Esta plataforma fue desarrollada para optimizar, validar y auditar los modelos de aprendizaje automático (Machine Learning) y las arquitecturas de IA de la compañía mediante la colaboración abierta y distribuida. Mi enfoque en la participación siempre ha sido claro: el entorno digital debe reflejar la pluralidad cultural de la humanidad. Bajo esta premisa, entendí siempre que las lenguas no solo valen por el tamaño de su mercado publicitario o el producto interno bruto de las naciones que las albergan; poseen un valor intrínseco como vehículos de identidad, conocimiento e institucionalidad jurídica.

Conferencia en las oficinas de Google.

Público asistente a la conferencia de César Romero en el auditorio de las oficinas de Google.

Auditorio de las oficinas de Google durante mi conferencia sobre Inteligencia Artificial.

César Romero exponiendo en el auditorio de Google sobre la importancia de la participación comunitaria en el desarrollo de la IA.

Explicando el impacto del caudal cultural e informático de las comunidades en el entrenamiento de la Inteligencia Artificial.

Invitación oficial enviada por Google para mi participación en la cumbre global de Inteligencia Artificial de la compañía en Singapur.

A mediados del año 2019 mi rol como Crowdsource Influencer en la región me dio cierta visibilidad en los canales globales de Google. En ese escenario de hiperconectividad recibí un mensaje directo que reconfiguraría mis prioridades profesionales de ese entonces. Desde Halabja, una ciudad de profunda relevancia histórica en el Kurdistán Iraquí, me escribió Bokan Hassan (reconocido en el ecosistema tecnológico de Medio Oriente como Bokan Jaff). Traía consigo un volumen considerable de datos crudos compilados de manera independiente y una meta clara: lograr la inclusión del kurdo sorani en el motor de Google Translate. Esto no era un mero capricho identitario, sino una cuestión de supervivencia en el siglo XXI. En un mundo gobernado por algoritmos, lo que no se traduce, no existe; queda fuera de la conversación global, de la academia, de los manuales técnicos y del intercambio diario. Para una comunidad que ya había sufrido el aislamiento geográfico y político, la exclusión digital era una forma silenciosa de invisibilidad que amenazaba con dejar obsoleta su cultura ante las nuevas generaciones.

Bokan Hassan.

Bokan me manifestó la profunda exclusión digital que confinaba a su comunidad a la periferia del desarrollo tecnológico. Durante años había trabajado sin apoyo corporativo, guiado por la convicción de que el silenciamiento digital de una lengua equivale a su marginación histórica. El proyecto requería un puente institucional hacia el interior de la compañía; un interlocutor que validara el reclamo histórico de una comunidad y la legítima demanda de un pueblo por su soberanía digital ante la ingeniería de Silicon Valley y transformara una causa cultural en un caso de uso técnico y métricas operativas viables para la corporación. Aquella conversación inicial dio paso a un esquema de cooperación intercontinental, asumiendo desde Argentina la contraparte estratégica de una de las campañas de recolección de datos más complejas de los últimos años.

Bokan Jaff distinguido en su nación por su gran trabajo.

La paradoja del Kurdo Sorani: Oficialidad constitucional vs. exclusión digital

Para comprender la magnitud científica y social de este proyecto, es indispensable analizar la naturaleza lingüística del kurdo sorani (کوردیی سۆرانی), también clasificado como kurdo central. Se trata de una lengua aglutinante hablada por una población estimada de entre siete y diez millones de ciudadanos, concentrados predominantemente en el norte de Irak y el oeste de Irán. Desde una perspectiva jurídica, el idioma goza de un estatus sólido: el Artículo 4 de la Constitución de la República de Irak de 2005 lo consagra explícitamente como idioma oficial del Estado junto al árabe, ordenando su uso en instituciones gubernamentales, documentos oficiales y programas educativos.

Sin embargo, las dinámicas de la industria del software operaban bajo una inercia diferente. En la disciplina del Procesamiento del Lenguaje Natural (NLP), el sorani era tipificado técnicamente como un Low-Resource Language (Idioma de bajos recursos). Esto implica una ausencia crítica de datos disponibles en la Web abierta: falta de textos paralelos alineados, carencia de diccionarios estructurados y una cantidad insuficiente de corpus lingüísticos digitalizados que permitieran el entrenamiento supervisado de redes neuronales.

Mientras sistemas robustos como el árabe o el persa absorbían la totalidad de los recursos de desarrollo en la región, los hablantes de sorani enfrentaban barreras para acceder a traducciones automáticas precisas en ámbitos críticos como la medicina, los derechos humanos, la administración pública y la educación superior. La falta de presencia en las herramientas de traducción global no constituía meramente un inconveniente de experiencia de usuario; se trataba de un vacío de representatividad que profundizaba la brecha digital de una comunidad cuyos derechos constitucionales no hallaban un correlato en las prioridades del mercado tecnológico global.

La complejidad lingüística subyacente: El kurdo sorani utiliza una variante modificada del alfabeto perso-arábico de 36 caracteres, incorporando diacríticos específicos que complican los procesos tradicionales de tokenización (división del texto en unidades mínimas). Su estructura morfológica aglutinante permite combinar raíces, prefijos y clíticos en una sola palabra compleja, elevando la tasa de vocabulario fuera de diccionario (Out-Of-Vocabulary) en los modelos predictivos estándar si no se dispone de un corpus exhaustivo.

El Factor Estratégico: Cómo articulé el puente técnico entre una causa comunitaria y la ingeniería de Silicon Valley

La viabilidad de este proyecto no dependía únicamente de apelaciones al valor cultural del idioma; requería la construcción de un caso de uso, de producto y de factibilidad técnica plenamente alineado con los exigentes mapas de ruta de una organización global. En el desarrollo de software a gran escala, las decisiones de infraestructura se guían por métricas de impacto, mitigación de riesgos operativos y escalabilidad de los sistemas.

Ahí es donde radicó el núcleo de mi estrategia: mi tarea no fue la traducción de contenidos, sino la articulación institucional necesaria para adaptar una demanda local al lenguaje de viabilidad técnica, cumplimiento institucional y estrategia de producto de Google.

Para viabilizar la integración del kurdo sorani en los planes de desarrollo, estructuré la fundamentación del proyecto sobre tres ejes estratégicos fundamentales:

Alineación con el Marco Constitucional y Gobernanza Institucional: Uno de los argumentos en defensa de la inclusión se centró en el estatus legal del idioma y el reconocimiento oficial que ya tenía en el país. Presenté ante los equipos globales el estatus formal del sorani, demostrando que no se trataba de una variante menor o un dialecto informal, sino de una lengua oficial del Estado de Irak, ratificada en el Artículo 4 de su Constitución de 2005. Sostuve que para garantizar la precisión institucional de las herramientas de traducción en la esfera pública y el cumplimiento de las normativas locales de cooficialidad de las naciones soberanas, los modelos de lenguaje debían reflejar de manera exacta este ordenamiento jurídico. Esto transformó la propuesta de una iniciativa comunitaria a un paso clave para la representatividad jurídica e institucional de la plataforma en la región.
Rompiendo el sesgo de datos: El "Business Case" de los idiomas de bajos recursos: En las disciplinas de Procesamiento del Lenguaje Natural (NLP), los idiomas de bajos recursos suelen enfrentar el desafío de baja tracción digital inicial en la Web abierta. Para superar este sesgo metodológico, orienté el análisis hacia la demografía real y el ecosistema offline. Sustenté la existencia de una comunidad usuaria potencial de entre siete y diez millones de hablantes nativos. Argumenté que la solidez global de Google Translate se consolidaría de manera decisiva al cubrir un vacío técnico sobre una población de esa magnitud, la cual ya poseía un entorno activo de universidades, administraciones públicas, editoriales y medios de comunicación con una demanda latente de infraestructura informática.
Optimización del Pipeline Operativo y Eficiencia en la Adquisición de Datos: Uno de los principales desafíos para los científicos de datos al integrar un low-resource language es el elevado costo operativo y logístico de compilar, alinear y auditar corpus lingüísticos de alta fidelidad desde cero. Consciente de estas limitantes de recursos y tiempos de ingeniería, la propuesta técnica ofreció una solución directa: presenté el proyecto garantizando que la comunidad en el territorio, bajo la coordinación de Bokan Hassan, ya contaba con la capacidad logística e institucional para aplicar protocolos estrictos de recolección y validación cruzada por pares. Le facilitamos a Google un flujo de datos masivos, limpios y pre-estructurados bajo sus propios estándares de ingeniería, absorbiendo la complejidad técnica de la fase de campo y demostrando la viabilidad económica del proyecto.

Al articular estos tres vectores —legitimidad constitucional, volumen demográfico y una solución eficiente en la ingesta de datos—, logramos transformar una necesidad local en un proyecto viable, escalable y prioritario para los equipos globales de producto.

Ciencia de datos aplicada al territorio: La creación del corpus lingüístico

Con la viabilidad técnica del proyecto validada dentro de los parámetros de la plataforma, la responsabilidad operativa se concentró en el Kurdistán Iraquí. Bokan Hassan fundó y lideró formalmente la comunidad de Google Crowdsource en Irak, estructurando un despliegue de recopilación de datos que se apoyó plenamente en la organización civil. Durante años, en paralelo a su desempeño laboral en el sector privado de las telecomunicaciones, coordinó una red integrada por académicos, filólogos, estudiantes universitarios y voluntarios de la sociedad civil.

El núcleo del trabajo radicó en la construcción y validación de Corpus Lingüísticos. Para mitigar el riesgo de introducción de datos corruptos o traducciones erróneas (data poisoning), se implementó un sistema distribuido de verificación cruzada por pares (peer validation). Cada segmento de texto traducido debía ser auditado de manera independiente por múltiples hablantes nativos antes de ser catalogado como válido para el pipeline de entrenamiento de la Inteligencia Artificial.

El volumen total de los datos procesados documenta la magnitud de esta movilización comunitaria:

Métrica Estructural	Volumen de Datos	Impacto en la Arquitectura NLP
Dataset de Cadenas de Texto	Más de 2,500,000 unidades de texto traducidas	Optimización de Modelos de Traducción Neural (NMT)
Corpus de Audio Validado	Más de 1,000 registros fonéticos de hablantes nativos	Entrenamiento de Sistemas de Reconocimiento del Habla (ASR)
Mapeo de Locuciones Locales	Modismos, frases idiomáticas y proverbios regionales	Alineación semántica y desambiguación contextual
Estructuración Temporal	7 años de recopilación y auditoría continua	Estabilidad temporal y reducción de alucinaciones en modelos

La capacidad de la comunidad local para organizarse y generar el corpus lingüístico necesario para su inclusión en la era algorítmica demuestra el impacto social del proyecto. De esta manera, las herramientas tecnológicas se transformaron en un canal fundamental para garantizar la vigencia y la preservación de la identidad regional.

El hito de la traducción Zero-Shot Machine Translation

El resultado tangible de este proceso se formalizó globalmente en mayo de 2022. Google anunció la integración de 24 nuevos idiomas en su plataforma de traducción, elevando el catálogo total de la herramienta. El kurdo sorani fue incorporado de manera oficial.

Este despliegue representó un avance técnico significativo para la disciplina de la lingüística computacional, al basarse en la implementación de modelos de Traducción Automática Zero-Shot (Zero-Shot Machine Translation). En las arquitecturas tradicionales de traducción neural, el sistema requiere un entrenamiento basado en ejemplos paralelos directos (por ejemplo, textos idénticos en inglés y sorani). La tecnología Zero-Shot permite que un modelo multilingüe masivo asimile la sintaxis y semántica del sorani de forma monolingüe, infiriendo las reglas de traducción hacia cualquier otro idioma sin requerir mapeos bilingües previos para cada par lingüístico.

La repercusión en la esfera pública de Medio Oriente fue inmediata. El Primer Ministro del Gobierno Regional del Kurdistán, Masrour Barzani, emitió declaraciones institucionales celebrando la medida como un avance histórico para los derechos culturales de la región. Agencias informativas internacionales especializadas en economías emergentes como Rest of World y cadenas de noticias regionales como Kurdistan 24 documentaron el impacto social de la actualización.

El reconocimiento corporativo explícito quedó asentado en los canales oficiales de Google Crowdsource, donde en sus apartados de liderazgo global (Community Spotlight) se destacó el trabajo de Bokan Hassan y los validadores de campo Medya Ghazizadeh, Roshna Omer Abdulrahman, Saman Vaisipour y Sarchia Khursheed. En dicho documento de visibilidad internacional, Bokan consignó el origen de la iniciativa:

"Un caballero en particular, César Romero de Argentina, me introdujo formalmente a la plataforma e hizo que nuestra necesidad de tener una voz para el kurdo sorani fuera escuchada".

— Bokan Hassan, Google Crowdsource Blog (Ver nota)

Ver mi nombre y el de mi país asociados a un hito de esta envergadura representa uno de los logros más significativos de mi trayectoria.

Validación científica: El respaldo metodológico detrás del proyecto

El impacto del trabajo desarrollado junto a Bokan trasciende la comodidad operativa de un software de traducción. Modificó el paradigma de gobernanza de datos dentro de las grandes compañías tecnológicas, demostrando que el crowdsourcing comunitario y éticamente estructurado es una metodología válida para el entrenamiento de grandes modelos de lenguaje (LLMs) enfocados en lenguas de bajos recursos, eliminando la dependencia exclusiva de costosas campañas de digitalización centralizadas.

En la actualidad, este esfuerzo conjunto se consolida como un caso de estudio referenciado en la literatura científica especializada en NLP y lingüística computacional:

Creación de Datasets y Análisis Comparativo: Los desafíos de normalización ortográfica del sorani y el entrenamiento de modelos de transferencia de aprendizaje son analizados en profundidad en el artículo de investigación Named Entity Recognition for the Kurdish Sorani Language: Dataset Creation and Comparative Analysis, accesible a través del repositorio científico global arXiv:2511.22315.
Optimización de Modelos sobre Script Árabe Modificado: En las actas del prestigioso foro internacional 2nd Workshop on NLP for Languages Using Arabic Script, se publicó la investigación A Fine-Tuned Approach for Kurdish Authorship Identification, que detalla pruebas de rendimiento avanzadas utilizando la arquitectura XLM-RoBERTa sobre textos en sorani, indexada en la biblioteca científica de la Association for Computational Linguistics (ACL Anthology).
Repositorios Públicos de Investigación en Datos: La estructuración de los corpus y la validación metodológica para este dialecto específico forman parte de los índices académicos públicos del National Center for Biotechnology Information (NCBI / PubMed Central) bajo el registro PMC12266528.
Consolidación Institucional Académica: En septiembre de 2024, la prestigiosa Universidad de Sulaimani (University of Sulaimani) otorgó un reconocimiento académico formal a Bokan Hassan por sus contribuciones científicas a la preservación digital del idioma.

Para los ciudadanos del Kurdistán, la presencia de su lengua materna en las interfaces globales de traducción representa un ejercicio de soberanía digital. Permite que un estudiante universitario en Erbil o Sulaimani acceda a la literatura científica internacional en tiempo real; facilita las labores operativas de los organismos de asistencia humanitaria en el terreno; y asegura que las nuevas generaciones de la diáspora kurda en el mundo puedan interactuar con su patrimonio cultural mediante las herramientas informáticas cotidianas.

Reflexión final: El andamiaje humano que no debe faltar en la inteligencia artificial

Este recorrido de más de un lustro deja una enseñanza central para la industria del software: aunque las arquitecturas de inteligencia artificial han alcanzado niveles de sofisticación técnica sin precedentes, su desempeño continúa dependiendo de la calidad, representatividad y diversidad cultural de los datos con los que son entrenados. En lenguas con escasa presencia digital, el rastreo automatizado de información resulta insuficiente para construir sistemas verdaderamente precisos y funcionales. La elaboración de un corpus lingüístico robusto en contextos complejos exige un trabajo sostenido de recopilación, validación y cooperación institucional, acompañado por mecanismos que permitan incorporar conocimientos lingüísticos producidos por los propios hablantes.

Por eso, cada vez que un usuario realiza una traducción con Google Translate desde o hacia el kurdo sorani, detrás de esa traducción instantánea existe mucho más que un conjunto de cálculos automatizados. Detrás de esa precisión matemática persiste una historia de resiliencia cultural y acción colectiva. Allí convergen la determinación de un pueblo que se negó a aceptar su invisibilidad digital, la visión estratégica de un líder comunitario como Bokan Hassan para resguardar su identidad lingüística y el entramado de cooperación que permitió incorporar esa riqueza cultural a las grandes infraestructuras tecnológicas contemporáneas. En definitiva, este hito demuestra que el verdadero avance de la inteligencia artificial no depende únicamente de la sofisticación de sus modelos, sino también de su capacidad para incorporar la diversidad cultural, contribuir a la preservación de las lenguas y reconocer el valor de las comunidades que las mantienen vivas.

📌 Fuentes, Enlaces Directos y Referencias Documentales

Anuncio Técnico de Google Translate (Mayo 2022): Documentación oficial sobre la integración de las 24 nuevas lenguas y la arquitectura de traducción Zero-Shot en el blog corporativo global de la compañía: Google The Keyword - 24 New Languages Overview. El registro de soporte técnico de la actualización puede consultarse en Google Translate Help Center.
Crónica Biográfica Oficial de la Comunidad: Entrevista institucional completa que detalla el nexo estratégico establecido entre Argentina y Halabja para el entrenamiento de los modelos de lenguaje: Google Crowdsource About Blog - Community Spotlight: Meet Bokan Hassan from Kurdistan (Iraq).
Ensayo Científico sobre Reconocimiento de Entidades (NER): arXiv:2511.22315. Named Entity Recognition for the Kurdish Sorani Language: Dataset Creation and Comparative Analysis. Estudio detallado sobre los desafíos sintácticos y el modelado de datos para el dialecto central.
Publicación en el Repositorio Internacional ACL Anthology: Association for Computational Linguistics (ACL). A Fine-Tuned Approach for Kurdish Authorship Identification. Análisis especializado de modelos XLM-RoBERTa aplicados al procesamiento de scripts árabes modificados.
Repositorio Nacional de Datos Científicos (EE. UU.): Registro indexado sobre la estructuración y validación del corpus lingüístico del kurdo central: National Institutes of Health / PubMed Central (PMC12266528).
Monitoreo de Impacto Sociotecnológico: Reportes periodísticos especializados sobre la inclusión lingüística en mercados emergentes en Rest of World y crónicas institucionales en Kurdistan 24.
Aval Académico Regional: Registro de programas de investigación en lingüística computacional y preservación cultural en el portal oficial de la Universidad de Sulaimani (University of Sulaimani).

⚠️ Aviso: La información publicada en este sitio es de carácter general y con fines educativos. No constituye asesoramiento profesional ni reemplaza la consulta con un especialista.

Buscar este blog

Derecho, Tecnología y Poder