2 Downloads Updated 8 hours ago
ollama run bladealex/putchi:v02
Updated 8 hours ago
8 hours ago
edccd8008954 · 4.1GB ·
🌐 Repositorios Oficiales (v0.2): - 🦙 Ollama Hub (GGUF Listo para usar): 🔗 https://ollama.com/bladealex/putchi —
ollama run bladealex/putchi- 🤗 Hugging Face (Safetensors texto): 🔗 https://huggingface.co/bladealex/putchi Borrador v0.2 sin validar por hablantes — fraseario, no traductor que generalice.El tercer pilar del Ecosistema · Justicia (TutelaBot) → Seguridad (VulnSentinel) → Lengua y Cultura (Pütchi)
ollama run bladealex/putchi“Pütchi significa «la palabra». En la tradición wayúu, el pütchipü’ü —el palabrero— es quien lleva la palabra para reconciliar, no para imponer. Este modelo nace con esa misma humildad: no reemplaza al hablante patrimonial ni al maestro etnoeducador; lleva la palabra un poco más lejos, hasta el niño de la ranchería sin señal y hasta el alijuna que quiere acercarse con respeto.” — Alexander Oviedo Fadul, Ing. de Sistemas y Abogado· Premio Innovación JusticiaLab
[!IMPORTANT] Estado: 🟢 v0.2 — DESPLEGADO y corriendo localmente en Ollama (23 mayo 2026). Entrenado sobre un corpus bootstrap de 5.228 pares derivado del dataset semilla de Wayuunaiki (lexicón de 854 entradas + clases cerradas). v0.2 corrige la señal de EOS (fin de secuencia) que faltaba en v0.1: la degeneración cae de 58.8% a 0% y español→wayuunaiki de 18.8% a 81.2% EM.
Dirección Estado v0.2 Wayuunaiki → Español ✅ Funciona ( wiin→agua,tepichi→niño,pütchi→palabra…) — 75% EMEspañol → Wayuunaiki ✅ Funciona ( agua→wiin,siki→fuego…) — 81% EM, sin run-onCorre localmente con:
ollama run bladealex/putchi. Es un fraseario sin validar por hablantes que memoriza el léxico que vio (no generaliza a pares nuevos: held-out 0% EM), no un traductor profesional.
El wayuunaiki (ISO 639-3: guc) es la lengua indígena más vital del norte de Suramérica: ~150.000 hablantes en Colombia y ~50.000 en Venezuela, con cerca del 30% de monolingüismo en la Alta Guajira. Pero esa vitalidad se erosiona: el desplazamiento por la crisis hídrica y la hegemonía del castellano en las aulas urbanas hacen que cada vez más niños wayúu lleguen a la escuela hablando solo español, sin poder dialogar con sus mayores ni con sus pares de las rancherías remotas.
Las herramientas existentes son valiosas pero fragmentadas: diccionarios en PDF, cartillas dispersas, plataformas que exigen conexión a internet en un territorio con marginación digital severa. Y las IA comerciales de traducción no incluyen el wayuunaiki ni respetan la gobernanza comunitaria sobre el conocimiento ancestral.
Pütchi rompe ese ciclo: un modelo de lenguaje que traduce Español↔Wayuunaiki, asiste la educación intercultural bilingüe y consulta la gramática y el léxico —100% offline, para que funcione en la intranet de una escuela rural (al estilo de la Red Local Kimera) sin entregar el patrimonio lingüístico a servidores extranjeros.
Un niño wayúu nacido en la periferia de Maicao crece escuchando español en la calle y wayuunaiki solo en los audios de WhatsApp que su abuela envía desde la Alta Guajira. En la escuela, el maestro —a veces designado desde el interior del país, sin formación en la lengua— no puede tender el puente. El diccionario está en un PDF de 10 MB que nadie puede abrir sin datos móviles. La palabra, pütchi, se va quedando sin quien la lleve.
Pütchi convierte ese PDF inerte en un interlocutor. Al instalarse sobre Ollama en un computador modesto (o en un servidor local tipo Kimera que emite Wi-Fi sin internet), el modelo:
A diferencia de un traductor de lenguas indoeuropeas, Pütchi se entrena para respetar la idiosincrasia del wayuunaiki:
| Rasgo | Descripción | Reto para la IA |
|---|---|---|
| Vocal /ü/ | Sexta vocal central alta, sin equivalente en español (anasü = bueno). |
Tokenización y ortografía consistentes. |
Cierre glotal (saltillo ') |
Fonema pleno que distingue significados (o'u = ojo). |
No tratarlo como apóstrofo decorativo. |
| Género proyectado por el hablante | Los sustantivos no tienen género fijo; el emisor lo asigna (masc. -kai / no-masc. -kalü / plural -kana). |
Modelar intención, no concordancia mecánica. |
| Sintaxis con verbo inicial | El sintagma verbal suele encabezar la oración. | Reordenamiento no literal en la traducción. |
| Voz pasiva morfológica | Morfema -n- interno + agente con sufijo -atima (“por”). |
Derivación, no perífrasis. |
| Variación dialectal | Arribero (Winpumüin, prefijo j-) vs. Abajero (Wopumüin, prefijo sh-/s-). |
Representar ambos; estándar de referencia ~ Uribia. |
gemma-tuner sobre Apple Silicon (MPS), modalidad text.El proyecto pasó por tres fases honestas sobre Apple Silicon M4 Max (MPS):
| Métrica | BASE | v0.1 | v0.2 |
|---|---|---|---|
| Exact-match global | 2.9 % | 41.2 % | 73.5 % |
| chrF global | 7.3 | 15.1 | 76.9 |
| Degeneración global | 2.9 % | 58.8 % | 0.0 % |
| EM español→wayuunaiki | 6.2 % | 18.8 % | 81.2 % |
| EM wayuunaiki→español | 0 % | 68.8 % | 75.0 % |
eval_loss |
— | 0.074 | 0.056 |
✅ v0.2 supera ampliamente la base y a v0.1 y resuelve el problema de repetición.
⚠️ Límite honesto que permanece: en vocabulario o frases no vistas durante el entrenamiento, el modelo aún no generaliza bien. Memoriza y maneja con alta precisión el léxico del dataset semilla (in-train 92.6%), actuando como un fraseario limpio y verificado, pero no como un traductor universal de lenguaje libre. Para superar este techo técnico, el camino es ampliar el corpus de entrenamiento en un volumen de 100 a 1000 veces mayor, contando siempre con la validación de hablantes patrimoniales y maestros.
| Evaluación | Meta de diseño | Estado |
|---|---|---|
| Inferencia local (GGUF/Ollama) | Objetivo offline | ✅ Logrado (GGUF q8_0, ollama run) |
| Superar la línea base (EM/chrF) | > TranslateGemma | ✅ Logrado (EM 73.5%, chrF 76.9) |
| Sin degeneración | ≈ 0% | ✅ Logrado (0%) |
| Cobertura léxica básica | ≥ 1.500 lemas | ⏳ lexicón actual 854; bootstrap cubre lo visto |
| Generalización (held-out) | chrF/BLEU útil | ⏳ Pendiente (held-out 0% EM — requiere más datos) |
Respeto ortográfico (ü, ') |
≥ 95% consistencia | ⏳ Evaluación con hablantes patrimoniales |
| Representación dialectal | Arribero + Abajero | ⏳ Etiquetado en el dataset |
ollama run bladealex/putchi
Funciona (léxico del fraseario):
Traduce del wayuunaiki al español: wiin→agua·¿Cómo se dice «fuego» en wayuunaiki?→sikiNo esperes traducción de oraciones nuevas complejas ni vocabulario fuera del lexicón: v0.2 es un fraseario, no traductor que generalice. Para oraciones complejas no incluidas en el vocabulario, se sugiere el acompañamiento directo de un etnoeducador o el uso de diccionarios de referencia para evitar que el modelo genere términos incorrectos.
La lengua es un bien patrimonial colectivo, no un dato extraíble. Pütchi adopta principios de gobernanza de datos indígenas (CARE / OCAP) inspirados en el modelo de la plataforma comunitaria En Mi Idioma:
Desarrollado en Colombia por Alexander Oviedo Fadul (@bladealex9848).
Ingeniero de Sistemas y Abogado, arquitecto del Ecosistema MARDUK — IA judicial, técnica y cultural open-source. Premio de Innovación JusticiaLab. Pütchi es la rama cultural del ecosistema, hermana de TutelaBot (justicia) y VulnSentinel (seguridad).
Este modelo es un obsequio para el pueblo wayúu y para todos quienes defienden las lenguas originarias. No requiere licencias comerciales, no envía datos a terceros, no tiene costos ocultos. Solo pide que la palabra —pütchi— se use con respeto.
Marco de referencia: Decenio Internacional de las Lenguas Indígenas 2022–2032 (UNESCO/ONU) Corpus fuente: Recopilación etnoeducativa y gramáticas de referencia del Wayuunaiki Estado: 🟢 v0.2 desplegado (Ollama + HF) · borrador sin validar por hablantes · Fecha: Mayo 2026