Skip to content

Motores de enriquecimiento semántico de contenidos

29 agosto, 2012

Hoy vamos a intentar poner un poco de orden sobre las herramientas lingüísticas y semánticas que están apareciendo en el incipiente mundo del Procesamiento de Lenguaje Natural (NLP). Sin embargo, no nos centraremos en las ramas encargadas de comprender íntegramente el texto de entrada (para traducirlo o interpretarlo), sino en el mecanismo habitual que se utiliza para procesar un determinado contenido y enriquecerlo con datos externos.

Ejemplo de enriquecimiento de contenidos en The Washington Post

Para llegar a conseguir este comportamiento final, aparentemente sencillo, existe una amplia amalgama de herramientas o motores disponibles, cada uno de ellos encargado de agrupar un conjunto de funcionalidades similares. En cada caso, trataremos de indicar dichas funcionalidades y algunas alternativas de software libre y comercial que las implementan.

Motores de preprocesado de textos

Preprocessing engines: son los primeros en enfrentarse al texto de entrada, y por tanto, les toca realizar el trabajo sucio de generar un modelo homogéneo a partir de la gran diversidad de formatos, idiomas y metadatos disponibles. En algunas ocasiones, sus responsabilidades se solapan con las de herramientas ETL. Sus principales funciones son:

  • Detectar el idioma del texto
  • Reconocer el encoding y content-type del texto
  • Extraer los metadatos a partir de los diferentes formatos
  • Convertir el texto a partir de diferentes formatos a un modelo estándar

Algunas soluciones de software libre que los implementan son Apache Tika, Metaxa Engine y Aperture Framework. Dentro de las comerciales, no podemos dejar de destacar a Autonomy, aunque también nos gustaría mencionar a alternativas más modestas como la finlandesa Connector Machinese.

Motores de reconocimiento de entidades con nombre (NER)

Named-Entity Recognition Engines: el reconocimiento de entidades con nombre consiste, como su propio nombre indica, en la detección de elementos con nombre propio dentro de un determinado texto, y su clasificación en categorías predefinidas, como personas, organizaciones, empresas, lugares, etc. La complejidad de este proceso se basa en que muchas entidades equivalentes pueden aparecer escritas de diferentes formas, por lo que es necesario contar con un conjunto de reglas semánticas avanzadas y un corpus contra el que cruzar la información para realizar desambiguaciones.

El reconocimiento de entidades con nombre se suele utilizar para hacer etiquetado automático de textos (por ejemplo, en las noticias de un diario digital) y como paso previo para el enriquecimiento semántico. El gran problema del NER es que el tratamiento de temas (topics) como prima de riesgo, o crisis eurozona es más complejo y requiere utilizar metainformación semántica.

Algunas reglas típicas de motores NER se pueden resumir en expresiones regulares como:

(N)ombre (A)pellido : Nombre / Apellido / N. Apellido / Nombre A. / N. A.
Ejemplo: Fernando Alonso: Fernando / Alonso / F. Alonso / Fernando A. / F. A.
(A)aa [de|del|la|los|las]? (B)bb [de|del|la|los|las]? (C)cc : ABC
Ejemplo: Organización de Naciones Unidas: ONU

Soluciones de software libre que implementan motores NER son, por ejemplo: Apache OpenNLP y Stanford NER (dirigido por el profesor Christopher Manning). Dentro de las soluciones comerciales cabe destacar, por ejemplo, Lingpipe NER, Daedalus Stilus NER, Connexor NER o Text Mining Engine. Por supuesto, en ese terreno también tiene cabida la omnipresente Autonomy. Finalmente, no podemos dejar de mencionar nuestra propia alternativa, Classora Autotagging, que además de entidades con nombre reconoce temas.

Motores de enriquecimiento semántico

Semantic Enhancement Engines: representan el eslabón más avanzado de desarrollo técnico, ya que requieren que se hayan llevado a cabo los procesos anteriores (preprocesado y NER) para finalmente cruzar los resultados con una base de conocimiento que les permita enriquecer los contenidos con datos adicionales procedentes de fuentes externas.

En este sentido, los motores de enriquecimiento semántico se subdividen en tres grupos principales:

  • Metadata Enhancement Engines: utilizan los contenidos externos para incrustar metadatos sobre el texto de entrada, como los microdatos de HTML5 o el etiquetado RDF. El objetivo de estas herramientas es múltiple: estructurar la información interna, posicionar mejor en buscadores, o añadir un determinado website al Linked-Data Cloud. La herramienta mundialmente más conocida para este fin es Open Calais de la agencia Thomson-Reuters, que proporciona un API abierto.
  • Content Discovery Platforms: manejan datos internos y externos para sugerir contenidos relacionados al usuario. Los datos internos suelen ser la propia navegación del usuario, y los externos suelen ser perfiles de usuarios similares. Además, estas herramientas manejan unos grafos de navegación muy potentes, construidos mediante la agregación del comportamiento de millones de usuarios en Internet. Los contenidos ofertados pueden proceder del mismo website, o bien de otros sitios afines. Las empresas líderes en este campo son Outbrain y nRelate, si bien existen múltiples alternativas como Orca, Pinevio o Cxense.
  • Content Enhancement Engines: utilizan el cruce con las bases de conocimiento para complementar el texto de entrada con contenidos externos relevantes. Estos contenidos pueden ser de naturaleza muy variada, desde definiciones enciclopédicas a imágenes, vídeos o componentes de redes sociales. Este tipo de herramientas están entre las últimas tendencias de Internet. No hay más que ver el fulminante éxito de Google Knowledge Graph, que enriquece semánticamente la búsquedas en Google.

    Entre las soluciones de software libre para los Content Enhancement Engines cabe destacar Apache Stanbol, que también da soporte a otros tipos motores para procesamiento de textos y Apache Jena, orientado a construir aplicaciones semánticas. En cuanto a las alternativas comerciales, cabe destacar soluciones como Zemanta (para enriquecer blogs con contenidos externos desde el panel de administración), Apture (comprada por Google, que enriquecía cualquier web desde dentro con un simple javascript, o desde fuera como plugin para el navegador). Y por supuesto, en este punto cabe destacar Classora Media Support, nuestra alternativa comercial y –con humildad– la herramienta más avanzada en muchos sentidos.

Todos estos motores están diseñados para poder ser integrados en plataformas CMS. Como ya hemos comentado en ocasiones anteriores, los motores de enriquecimiento semántico se están convirtiendo en una de las principales tendencias en CMS y medios digitales. Su objetivo no es otro que dar un paso más sobre el tratamiento tradicional de los contenidos, ofreciendo un evidente valor añadido al usuario.

Big Data, Linked Data, Open Data

26 julio, 2012

Supongo que los que os movéis entre estos temas ya lo habréis notado. Cada vez aparecen más movimientos, tendencias, corrientes o tecnologías relacionadas con los datos. Se reconocen enseguida por sus terminaciones en inglés, con un énfasis explícito sobre la palabra data. En este post trataremos de desgranar las premisas fundamentales de estos movimientos y su relación con las bases de conocimiento, la Web Semántica y, en general, el futuro de Internet.

Big Data (Grandes Volúmenes de Datos)

El concepto de Big Data se refiere al almacenamiento y procesado de enormes cantidades de datos, tan desproporcionadamente grandes que resulta imposible tratarlos con las herramientas de bases de datos convencionales.

Estamos hablando de los miles de millones de registros que deben manejar internamente algunas empresas para tratar la proliferación de páginas web (Google), petabytes de imagen y vídeo (YouTube), movimientos en redes sociales (Facebook), dispositivos móviles y aplicaciones (Apple), sensores meteorológicos (National Weather)… etc. Nos referimos a empresas y organizaciones capaces de generar, según IBM, más de 2.5 quintillones de bytes al día, hasta el punto de que el 90% de los datos del mundo se crean durante los últimos dos años. Una curva claramente exponencial.

Big Data

Debido a esta curva y al incremento del número de compañías que manejan ingentes volúmenes de información, los sistemas Big Data se ha convertido en un suculento negocio para los grandes jugadores del sector de base de datos, como Oracle o IBM.

Linked Data (Datos Entrelazados)

El concepto de Linked Data surge dentro del marco general de la Web Semántica (propuesta por Tim Berners-Lee) y se refiere al método con el que se pueden mostrar, intercambiar y conectar datos a través de la Web.

La Web que tenemos en la actualidad se basa en documentos enlazados, no en datos enlazados. El objetivo del Linked Data es, precisamente, conseguir que la Web se convierta en una gran base de datos interconectados y distribuidos, perfectamente legibles por máquinas, que harán el trabajo sucio de entender los requisitos del usuario y buscar automáticamente las respuestas adecuadas.

Linked Data

El Linked Data se basa en la aplicación de cuatro principios básicos, respaldados por la W3C, que tratan de regular el crecimiento de la Web, tanto a nivel de documentos HTML (vista clásica de la Web), como a nivel de los datos expresados en RDF (vista de la Web Semántica):

  • Utilizar URIs para identificar los recursos publicados en la Web
  • Aprovechar el protocolo HTTP para acceder a URIs y consultar dichos recursos
  • Ofrecer información estructurada sobre los recursos usando RDF
  • Incluir enlaces entre URIs relacionadas, vinculando los datos entre si

Open Data (Datos Abiertos)

El concepto de Open Data se refiere a una filosofía que pretende que determinados datos estén disponibles de forma libre a todo el mundo, sin restricciones de copyright, patentes u otros mecanismos de control. Tiene una trasfondo similar a otros movimientos como el Software Libre (Free Software), el Código Abierto (Open Source) o el Acceso Libre (Open Access).

La definición oficial de Open Data implica que los datos pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona, y que se encuentran sujetos, cuando más, al requerimiento de atribución y de compartirse de la misma manera en que aparecen.

Open Data

Lo bueno de este movimiento es que, lejos de quedarse en el terreno teórico, está siendo respaldado de manera proactiva desde varias administraciones públicas. Un ejemplo directo es el Portal de Datos Públicos del Gobierno Español (y los correspondientes de muchas autonomías y ciudades). La explicación a este fenómeno anómalo de colaboración por parte del Gobierno es doble: por un lado, se potenciaron mediante Fondos Europeos los proyectos para recopilar y estructurar datos públicos manejados internamente. Por otro lado, el proceso de apertura favorece el reaprovechamiento de dichos datos ya que, al ponerlos al alcance de muchas empresas y particulares, éstos pueden utilizar su inventiva para hacer negocio o méritos, respectivamente. Un buen ejemplo de participación ciudadana es el Concurso Abre Datos.

Combinando los conceptos: Big-Linked-Open Data

Resulta esperanzador comprobar como estas tendencias están llegando a buen puerto por separado. Pero lo realmente asombroso y visionario llega cuando hallamos la intersección de todas ellas: disponer públicamente de una web basada en grandes bases de datos interconectadas y abiertas. Insisto: una web basada en datos (con sus correspondientes ontologías y metadatos), no en documentos HTML (con texto plano y enlaces básicos). Las posibilidades de esta arquitectura son impresionantes.

Linked Open Data Cloud Diagram

Pues bien, hoy en día existe una iniciativa desarrollada por la W3C que ya ha avanzado mucho terreno en este sentido: se trata del proyecto Linking Open Data, encargado de divulgar y explicar la Web semántica (Semantic Web Education and Outreach) y ampliar la web actual con bases de datos abiertas y disponibles en RDF.

Esta iniciativa ha estado respaldada desde prácticamente sus inicios por las principales bases de conocimiento del mundo (DBPedia, Freebase… etc.). En Classora, aunque tenemos la capacidad para hacerlo, de momento hemos optado por no publicar datos en formato RDF. Somos la principal base de conocimiento en español, de modo que… ¡ese momento llegará!

Basadas en el proyecto Linking Open Data existen otras iniciativas como Linked Data Tools, The Data Hub, Schema o The Linking Open Data Cloud Diagram, un diagrama de nube que recopila, año tras año, las webs que se adhieren a este movimiento.

Si estás interesado en este tema, no dudes en contactar con nosotros para que te hagamos llegar más enlaces y documentación adicional.

En resumen, mi pronóstico personal es que estamos asistiendo al nacimiento de una nueva manera de entender la información almacenada en Internet. De momento es un proceso que avanza despacio, aunque sin pausa (sólo hay que ver la evolución interanual del diagrama de nube). A pesar de ello, lo más probable es que dentro de unos años sólo unas pocas plataformas acaparen más del 80% de los datos publicados en RDF por todo Internet. El resto de la web se incorporará gradualmente quizá utilizando HTML5 y su microdata, hasta llegar a conformar la long-tail de los datos estructurados disponibles públicamente.

Últimas tendencias tecnológicas en los medios digitales

27 junio, 2012

Durante los últimos meses hemos tomado contacto de manera intensiva con el mercado de los medios de comunicación. Además, en paralelo, hemos tenido que desarrollar un breve estudio interno acerca de la realidad en los principales gestores de contenido (CMS) orientados precisamente a medios digitales. En el estudio nos hemos centrado de manera especial en aquellas empresas que más están invirtiendo en I+D para impedir que estos tiempos de crisis les pasen factura a largo plazo.

Últimas tendencias en medios digitales

En general se puede concluir que los medios que mejor están gestionando estos tiempos convulsos no son sólo aquellos que tienen una posición inequívoca de liderazgo, ni siquiera los que se amparan en mercados más proclives al pago por contenidos (en contraposición con el mercado latino). La calidad editorial y la actualización de contenidos es para ellos un must-have, una obligación, pero tampoco es una garantía absoluta para superarlo todo. Al contrario, los que mejores resultados están obteniendo son los que están probando constantemente nuevas fórmulas para fidelizar al usuario y dar valor añadido tanto a los lectores como a los anunciantes. Su método no es otro que prueba-error, una vez tras otra, hasta conseguir el objetivo que se proponen. Es la ya antigua receta de la innovación.

A continuación resumimos algunas novedades que están impactando positivamente en diarios líderes, y que algunos CMS de alto nivel, junto con empresas especializadas, ya empiezan a apuntar como herramientas potenciales para mejorar el sector:

1º) Integración con fuentes externas y tecnologías semánticas: son las principales tendencias en los diarios líderes a nivel mundial (BBC, The Guardian, New York Times… etc.) y se basan en el enriquecimiento semántico (Semantic Enhancement) de la información disponible. Este proceso no se refiere sólo a incrustar microdatos de HTML5 o RDF en la web (para posicionar mejor en los buscadores), sino en complementar cada noticia con información contexual relevante para el lector. Hay proyectos muy ambiciosos en este sentido. Por ejemplo: Dynamic Semantic Publishing de la BBC, Open Calais de Thomson-Reuters, el Thesaurus de The New York Times o el Data Store de The Guardian. Justo ahí es donde estamos nosotros posicionándonos con Classora Media Support.

Ejemplo de enriquecimiento con contenidos de fuentes externas. Mapa del paro en USA.

2º) Personalización de contenidos: una idea muy practicada en Internet desde sus comienzos, y que las redes sociales supieron aprovechar como nunca. La tendencia se basa en que cada usuario pueda configurar una o varias portadas y tableros customizados indicando los temas de actualidad que le interesan. De esta forma, al entrar al medio obtienen una especie de muro de Facebook, o timeline de Twitter, con las noticias de su incumbencia. Este tipo de funcionalidades pueden llevarse a su máximo esplendor si permiten configurar no sólo hashtags para buscar noticias, sino también todo tipo de gadgets informativos (cotizaciones bursátiles, clasificaciones deportivas, búsquedas en tiempo real en Twitter…). Estas herramientas, cuya filosofía es similar a la de iGoogle, tienen una potencia impresionante para la rentabilidad del medio si los datos se aprovechan adecuadamente para segmentar al usuario y enviar al Ad Server en busca de los anuncios mejor enfocados.

3º) Motores de recomendación: a estas alturas está claramente comprobado que la mayor parte de los usuarios son perezosos a la hora de parametrizar sus intereses, e incluso a la hora de llevar una navegación ordenada. Amazon se dió cuenta de esto hace muchos años y creó un impresionante motor de recomendaciones que convirtió en una clara ventaja competitiva. Lo mismo sucedió posteriormente con muchos otros proyectos, como Spotify. Hoy en día, estos motores se encuentran especialmente extendidos en la publicidad online. En general, se basan en analizar la navegación del usuario y cruzarla con un grafo de información interna, de manera que siempre podamos ofrecer contenidos íntimamente ligados a lo que visualiza el usuario. Aunque parezca mentira, hasta hace poco la mayor parte de los medios digitales no estaban aprovechando esta importante característica, tecnológicamente simple, y con resultados inmediatos. Por supuesto, son una manera sencilla de ayudar a la personalización de contenidos, vista en el punto anterior.

Interacción constante entre Medios y Redes Sociales

4º) Interacción con Redes Sociales (Facebook, Twitter) en ambos sentidos: estas funcionalidades responden a la estrategia de potenciar la imagen de marca del periodista en Social Media. Por un lado, los CMS pueden integrar trending topics customizados, analizando información externa. Por otro lado, permiten que todos los periodistas de un medio puedan interactuar con las redes sociales a través del propio CMS de varias formas:

  • al publicar una noticia se puede publicar también un tweet con el hashtag adecuado
  • si una noticia tiene mucha aceleración de visitas, se publica automáticamente un enlace adaptado a ella en el muro de Facebook del periódico
  • conseguir followers de forma automática, mediante robots autónomos

5º) Autotagging y autobriefing de noticias: estas funcionalidades consisten en aumentar la productividad del periodista automatizando dos tareas recurrentes y monótonas: el etiquetado de noticias y la generación de resúmenes. Hoy en día la mayor parte de los diarios disponen de una colección de etiquetas predefinidas gracias a la cual los lectores pueden analizar transversalmente los contenidos en dichos medios, es decir, pueden cruzar noticias por tema o protagonista. No obstante, el hecho de cambiar el método de trabajo de ciertos redactores, unido con el hecho de que una misma etiqueta pueda ser escrita de múltiples maneras, ha propiciado que la automatización de esta tarea se haya vuelto algo de gran valor en muchas redacciones. La generación de resúmenes automáticos, aunque más reciente y menos extendida, se basa en la misma línea de incremento de productividad.

6º) Generación automática de noticias a partir de los datos: aunque parezca ciencia ficción, esta posibilidad está encima de la mesa desde hace ya unos años. Los algoritmos más rudimentarios en este sentido empezaron, curiosamente, en ámbitos cercanos al Digital Media. Nos remontamos a software que era capaz de generar textos human-readable a partir de las clasificaciones y los resultados en algunas ligas escolares y competiciones locales que no tenían recursos para contratar a un humano. No obstante, las enormes posibilidades de este tipo de herramientas está haciendo que surjan nuevas iniciativas y que algunas grandes empresas las evalúen con aproximaciones mucho más serias e inversiones mucho mayores.

Cálculo automático de etiquetas

7º) Clasificación automática de comentarios: esta funcionalidad, heredada de la disciplina de gestión documental, sirve para determinar que comentarios son spam, o resultan ofesivos/inadecuados. Estas herramientas realizan una clasificación automática de los textos volcados por los usuarios basándose en patrones de publicidad (enlaces salientes) y en la polaridad de la información subjetiva contenida: opinión positiva, opinión negativa, no opinión. En los dos primeros casos también se puede calcular para cada uno de los comentarios analizados un valor porcentual que indica el grado de intensidad de la opinión. Aunque estas herramientas todavían funcionan mal ante recursos como la ironía o el sarcasmo, es indudable que ayudan a mejorar la productividad de administradores y Community Managers.

8º) Soporte multicanal: el objetivo de estas funcionalidades consiste en ayudar a la convergencia de redacciones (digitales, en papel… etc). El mismo CMS vale para editar y publicar noticias (con sus diferentes versiones) en la edición en papel, la edición digital estándar, la edición digital de pago, la edición para tablets… etc. Es una funcionalidad existente desde hace años pero no por ello está siendo menos valorada o demandada.

9º) Componentes novedosos de workflow (flujo de trabajo): relacionado con lo anterior y con grupos editoriales de tamaño medio-grande, se popularizaron hace un tiempo plugins para gestionar el flujo de trabajo y el flujo de la información a través de la empresa. El objetivo principal de estas funcionalidades, heredadas principalmente de sistemas ERP y CRM es, como en otros sectores, potenciar y dar mayor protagonismo a la cadena de valor de la empresa.

Herramientas de workflow y monitorización para controlar los indicadores

10º) Paneles de Business Intelligence y estadísticas de monitorización: que permiten resumir la estrategia de la empresa en una serie de indicadores y monitorizarlos constantemente mediante un Cuadro de Mando o un Sistema de Soporte a la Decisión. Como es natural, en los medios digitales estos módulos están intimamente ligados a estadísticas de tráfico/audiencia y análisis de navegación del usuario. Aunque estas funcionalidades ya no son novedosas, últimamente algunos CMS han perfeccionado su tecnología para ofrecer datos en tiempo real que pueden enriquecer a los de Google Analytics y otros medidores.

En fin, como se puede observar, estas tendencias se pueden clasificar en dos grandes grupos: las destinadas a aumentar ingresos (tecnologías semánticas, integración de contenidos externos e interacción real con redes sociales) apostando fuerte por mejorar la experiencia de usuario y el engagement. Y, por otro lado, las destinadas a reducir costes, automatizando tareas e incrementando internamente la productividad. Huelga decir que los diarios que están obteniendo mejores resultados son los que invierten principalmente en las primeras tendencias. De hecho, es esta inversión en I+D+i, acompañada de la innovación constante de múltiples startups, la que está abriendo camino y creando tendencia para el futuro del Digital Media. De ahí el orden de los puntos tratados.

Nuevo diseño gráfico de la web abierta de Classora Knowledge Base

25 mayo, 2012

Unos meses después del lanzamiento de la web abierta de Classora Knowledge Base, y tras haber seguido las recomendaciones de ilustres compañeros en Internet, hoy nos enorgullece presentar el nuevo diseño gráfico de dicha web. Poco a poco, se había ido convirtiendo en el principal escaparate público de la recopilación de datos horizontales que llevamos a cabo en la empresa.

Boceto inicial de la portada

Los principales retos de la revisión fueron los temas de usabilidad y comunicación. La web de Classora Knowledge Base tiene una infinidad de opciones de cruce de datos y, según el caso, diferentes modalidades de visualización. Esto hace especialmente complicado potenciar las alternativas de navegación principales (que suelen interesar a la mayor parte de los usuarios) sin descuidar las opciones de navegación secundarias (que, en nuestro caso suelen ser mucho más potentes, pero sólo son explotadas por una parte reducida de usuarios).

El proyecto de rediseño fue llevado a cabo por la empresa Mediadvanced, de Gijón, que se tuvo que emplear a fondo para poder priorizar y cuadrar en pantalla las principales funcionalidades con sus correspondientes variantes y mensajes explicativos. Las páginas que supusieron un mayor cambio de enfoque fueron las siguientes:

  • Portada: el objetivo era enviar un mensaje “limpio” al usuario, tratando de indicar que Classora maneja información estructurada, que los datos están interconectados aunque procedan de muchas fuentes distintas. En definitiva, que el potencial para extraer conocimiento es enorme.
  • Unidad de conocimiento: se reordenaron las pestañas y se incorporaron gráficas en miniatura sobre la evolución de algunos atributos. Además, se hizo una distinción explícita entre los dos tipos de informes: rankings y encuestas (los rankings son estáticos, las encuestas permiten la participación de los usuarios).
  • Informe (ranking/encuesta): se buscó un aspecto visual más ordenado, eliminando la barra lateral izquierda, y dejando las principales funcionalidades a la derecha. El objetivo es que el usuario no se quede sólo con la lista estática que tiene delante, sino que vea que existen múltiples ediciones de esa misma lista, que puede cruzar datos, que puede visualizarlos de distintas maneras… etc.

En fin, esperamos que el nuevo diseño haya resultado de vuestro agrado. Después de esta experiencia, valoramos mucho más el difícil trabajo al que se enfrentan los diseñadores gráficos: parece fácil una vez finalizado, pero durante el proceso se puede observar la necesidad de un profundo conocimiento de los hábitos del usuario y, por supuesto, de una inspiradora vena artística.

Search plugin de Classora para navegadores

27 abril, 2012

Hoy nos complace presentar un componente novedoso: un plugin de búsqueda para navegadores sobre Classora Knowledge Base. El plugin es un componente que se integra directamente con el navegador (Firefox, Chrome, Safari, Explorer… etc.) y sirve para poder realizar búsquedas sobre la base de conocimiento, sin necesidad de acceder previamente al website de Classora.

Ejemplo de search plugins

El plugin es compatible con los principales navegadores y su funcionamiento es directo y sencillo, exactamente igual que una búsqueda con Google. De hecho, Google Search es el plugin de búsqueda más común (y que suelen traer por defecto la mayor parte de los navegadores actuales). No obstante, muchas plataformas de Internet que prestan servicios básicos y manejan un importante volumen de información tienen su propio plugin de búsqueda. Es el caso, por ejemplo, de Wikipedia, eBay, Yahoo, Bing, Twitter… e incluso la propia RAE, la Real Academia de la Lengua Española.

El plugin de búsqueda de Classora está disponible en el Mycroft Project, el almacén oficial de Search Engine Plugins en Internet, iniciado hace unos años por Mozilla Corporation. Aquí se pueden encontrar prácticamente la totalidad de plugins destinados a este fin, e incluso consultar el ranking de los más utilizados del mundo.

El único paso necesario para descargar e instalar el plugin es pinchar sobre el enlace del mismo en el Mycroft Project y aceptar las condiciones del navegador. Una vez hecho esto, el plugin estará disponible en la caja de búsqueda del navegador y ya se podrán realizar pruebas sobre él. El software instalado por Classora es mínimo, ya que técnicamente el plugin no es más que un fichero xml que especifica al navegador las características del motor de búsquedas.

En fin, este componente se suma a la lista de aplicaciones de integración que estamos generando últimamente para que los datos de Classora Knowledge Base estén accesibles desde más dispositivos. Esperamos que el componente os guste y, sobre todo, que os resulte de utilidad. Estaremos encantados de ayudar a otros desarrolladores a implementar su propio search plugin y, por supuesto, a recibir cualquier feedback al respecto.

API de Classora para desarrolladores

5 marzo, 2012

Por fin ha llegado el momento. Desde Classora nos alegra anunciar el lanzamiento de un API REST para realizar consultas y operaciones sobre la base de conocimiento Classora Knowledge Base. El API forma parte de un servicio de pago orientado a agencias de contenidos, aunque desde Classora nos comprometemos a compartirlo de manera gratuita con cualquier desarrollador con un proyecto interesante entre manos.

Classora API Rest sirve contenidos en formato XML o JSON. Como es habitual en estos casos, para convertir este contenido en formato HTML es recomendable utilizar hojas de transformación XSL y maquetarlo utilizando hojas de estilo CSS, o bien emplear directamente Javascript. No obstante, la misma arquitectura es igualmente válida a la hora de desarrollar aplicaciones específicas para otros dispositivos, como iPhone, iPad, Android, Nokia, BlackBerry… etc.

El API está dividido en tres bloques de operaciones. En primer lugar, hay un bloque de herramientas de utilidad general (que comprenden desde componentes autosuggest sobre jerarquías geográficas hasta operaciones para obtener la lista de personajes que cumplen años el día de hoy). En segundo lugar, hay un bloque de operaciones para la generación de widgets (gráficos, mapas, rankings) utilizando información de la base de conocimiento. En tercer lugar, hay un bloque de operaciones destinadas a la publicación de contenidos de fuentes libres.

Entre las principales ventajas de la utilización del API está que dispondrás de información actualizada (los robots de Classora se conectan periódicamente a las fuentes originales para evaluar posibles cambios en los datos). En muchos casos, tendrás acceso libre a herramientas inéditas (autoetiquetado de textos, búsqueda semántica de conceptos, rastreo de fuentes… etc). Por último, si estás reutilizando un componente que ya ha sido previamente maquetado, tendrás a tu disposición los ficheros XSL y CSS utilizados con anterioridad.

Algunas aplicaciones ya desarrolladas hasta el momento sobre el API REST de Classora Knowledge Base son las siguientes:

Así como otras webs de carácter general, que incluyen componentes de Classora en forma de widgets (algunos ejemplos: Clasificaciones Deportivas, Festival Eurovisión).

Poco a poco, trataremos de ir incorporando nuevas funcionalidades al API. De modo que ya sabes, si eres desarrollador y necesitas conectividad con la base de conocimiento, o bien si simplemente eres proactivo y deseas crear una aplicación rompedora, no dudes en ponerte en contacto con nosotros para poder acceder libremente al API.

Por último, nos gustaría dejar abierto un buzón para que cualquiera, ya sea desarrollador o no, pueda sugerir aplicaciones que sea posible implementar rápidamente con el API gracias a la tecnología de minería de datos de Classora.

Las anécdotas del logotipo de Classora

24 febrero, 2012

Inicialmente, el logotipo de Classora trataba de imitar una concatenación de Cubos OLAP, convenientemente alineados y formateados según los colores típicos del sector. Los Cubos OLAP son unas estructuras de datos muy ligadas con los orígenes del proyecto, ya que suelen integrar información de varias fuentes, que después permiten analizar de manera ágil y sencilla.

Estas estructuras se representan gráficamente mediante un cubo para ilustrar cómo es posible llegar a un dato concreto cruzando tres dimensiones diferentes. Los cubos OLAP no tienen por qué limitarse a tres dimensiones, pero para que resulte intuitiva, su representación sobre el papel tiene que venir marcada por las tres únicas dimensiones espaciales que existen.

En la siguiente imagen se muestra un ejemplo de como representa Oracle sus cubos OLAP multidimensionales:

Ejemplo de cubo OLAP de la página de Oracle

Por tanto, con el convencimiento de que disponíamos de un logotipo original y acorde a la finalidad de la empresa, a mediados del año 2010 procedimos a solicitar el registro del logotipo comercial, tanto a nivel español como a nivel europeo.

El registro a nivel español resultó completamente fructífero, pero a nivel europeo recibimos una inesperada sorpresa: la empresa Seven Towns Limited, del Reino Unido, se puso en contacto con nosotros para avisarnos de que nuestro logotipo se parecía demasiado a una marca registrada previamente por ellos: el Cubo de Rubik.

Logo inicial de Classora

Aunque el parecido es evidente, jamás se nos había pasado por la cabeza la posibilidad de que pudiese entrar en conflicto con aquella marca. Uno al lado del otro, los logotipos en conjunto tienen formas diferentes (5 cubos frente a 1), colores distintos y, lo más importante: representan conceptos totalmente dispares.

Realmente, lo mismo debieron pensar en Seven Towns Limited, ya que su carta era una invitación a resolver la situación de manera amistosa: ellos se ponían a nuestra disposición para reembolsar todo el dinero que nos costó la solicitud de registro de marca a cambio de que hiciésemos unos pequeños retoques en boceto inicial del logotipo.

Tras las comprobaciones pertinentes y un cordial intercambio de correos, finalmente llegamos a un acuerdo y generamos la nueva versión del logo de Classora, un poco menos sofisticada que la anterior, pero manteniendo la esencia del mensaje inicial:

Logo actual de Classora

De la misma forma, ellos cumplieron su parte y reembolsaron íntegramente el importe del registro en el plazo establecido. Dejaron una impresión muy positiva.

La lección aprendida de esta historia es que parece que en este mundo todo está inventado, y demasiadas cosas de carácter universal están sujetas a registros de marcas o derechos de autor. De hecho, teniendo en cuenta que el registro europeo de logotipos se realiza en blanco y negro (ignorando colores, teniendo en cuenta sólo la forma) es fácil que, una vez registrada la imagen básica de un cubo 3D, cualquier imagen derivada pueda entrar en conflicto.

De modo que si tienes previsto registrar un logotipo que te gusta, mejor no tardes mucho tiempo en iniciar el proceso. Puede que tú también te lleves una sorpresa inesperada.