BioHackaton 3

The 3rd DBCLS BioHackathon for interpreting biological knowledge with Semantic Web technologies will be held during 2010/2/ 8-12 in Japan.

Objectives

DBCLS is working on the integration of biological resources. To achieve this goal, we have been organizing BioHackathons since 2008 to survey existing efforts and develop integrated environments with open source software and public services. Themes of the hackathons evolved year by year, and we are continuously providing cutting edge developers with opportunities to gather for utilizing state of the art technologies to emerging demands in life sciences.

Facing to unprecedented amount and variety of biomedical data, it is required to consolidate related information and facilitate efficient interpretation of the accumulated biological knowledge. Therefore, we selected the Semantic Web as its main theme this year. Topics may include but not limited to:

  • Queries
    • Targeted queries to be resolved by the Semantic Web technologies.
  • Datasets
    • List currently available and/or still missing datasets (as Linked Data / RDF) to resolve the above queries.
  • Stores
    • Develop our own or survey existing extensible storage systems for RDF triples and functional query interfaces.
  • Tools
    • Develop common APIs among Open Bio* projects for RDF stores and SPARQL endpoints.
    • Develop a set of programs including loaders and converters for RDF data.
    • Develop supporting text mining systems and end-user applications.

About the Hackathon

The hackathon (hacking + marathon) basically is a camp where invited participants discuss current issues and implement software to solve them on site collaboratively. This kind of meeting is very effective for the intensive development of projects, because face-to-face meeting of the developers, who are usually scattered around the world, accelerates their communication and collaboration.

BioHackathon 2010 is sponsored by Database Center for Life Science ( DBCLS) and Computational Biology Research Center ( CBRC). DBCLS is a national center responsible for sustainable life science databases in Japan and CBRC is a national research organization for bioinformatics.

Developing Corona Matching Pipeline Sim

En mis tiempos de ocio he estado desarrollando un poco una versión lejana aún, pero parecida a Corona ya que lo necesito para probar otro proyecto, por el momento estoy trabajando en el Pipeline de “matching” que permite alinear lecturas de SOLiD(fragmentos o por pares) hacia un genoma de referencia, por lo que el parser del mapa de cromosomas esta terminado y efectivamente cumple su objetivo, básicamente en el primer Pipeline esta completo los siguientes puntos:

  • parámetros requeridos completos y por el momento  solo -z(hits) , –tempdir (scratch) son viables.
  • parser para el mapa de cromosomas esta completo, identifica los cromosomas y genera los directorios correctos.
  • genera los scripts necesarios para proceso en cluster al igual que Corona(torque pbs)

La forma de llamar el primer Pipeline es:

jacob@jacob-mobile:~/Projects/ABCoronaLiteEmu/build$ mono matching_large_genomes_cmap_save_script.exe -csfasta /home/jacob/tmp/SOLiD/results/lpi/R3/file.csfasta -dir /home/jacob/tmp/SOLiD/results/lpi/matchingR3 -cmap /home/jacob/tmp/SOLiD/ref/human_validated.cmap -t 25 -e 4 -z 10 -tempdir /home/jacob/tmp

más delante comentare sobre los avances de cada Pipeline y las herramientas independientes.

Uso de memória pelo Velvet

En días pasados dejamos disponible Leonardo y un servidor una aplicación web sencilla para calcular la memoria necesaria de la computadora en el momento que vayamos a ejecutar Velvet para ensamblar un genoma a partir de lecturas pequeñas.es un factor  muy importante que hay que tomar en cuenta antes de trabajar.

Liga: http://denovoutils.appspot.com/velvetmem

copy-paste:

O fator limitante para a execução do Velvet é a quantidade de memória disponível no computador. Segundo essa
thread
no fórum SEQAnswers forum a fórmula para calcular o uso da memória em kb é:

Ram required for velvetg = -109635 + 18977*ReadSize
    + 86326*GenomeSize + 233353*NumReads - 51092*K

Onde:

  • ReadSize está em bases
  • GenomeSize está em megabases
  • NumReads está em milhões de reads
  • E k é o tamanho do k-tamero utilizado pelo Velvet

Copyright Leonardo

México aporta el Genoma del Maíz al conocimiento científico mundial

“México aporta el Genoma del Maíz al conocimiento científico mundial”

Con la reciente publicación del articulo http://www.sciencemag.org/cgi/content/abstract/sci;326/5956/1078
en la revista Science, hace un par de semanas recibí un reconocimiento por mi participación en el proyecto, mi participación fue muy muy pequeña ya que solo desarrolle un pequeño browser web que permite visualizar los datos, a la medida y necesidades, que previamente se estaban analizando, este pequeño browser lo denominamos Query Sequence Visualizer , el cual permanece en una fase de pruebas o mejor dicho una versión beta.

La aplicación esta desarrollada con el framework de Mono, básicamente usa un conjunto muy rico de diversas tecnologías para lograr su cometido.

Básicamente es el nacimiento de la aplicación ya que hay muchas características y planes que implementare en la aplicación.

Sin lugar a dudas agradezco a toda la gente que me tuvo la paciencia y me oriento en el desarrollo de la aplicación. es un orgullo haber participado un poquito en el proyecto.

Más información sobre Query Sequence Visualizer http://hackob.openenchilada.com/projects/soft/bio/qsv/indexQsv.html

Referencias en internet sobre el articulo del Genoma de Maiz:

http://www.ecuadorciencia.org/noticias.asp?id=8288&fc=20091122

http://sapiensideas.com/noticias/saberes/develan-genoma-del-maiz/

http://www.research.gov/rgov/anonymous.portal?_nfpb=true&_windowLabel=news_1_1&news_1_1_actionOverride=%2Fgov%2Fresearch%2Fcore%2Fcms%2Fnews%2Fbegin&news_1_1nodePath=%2FBEA+Repository%2Fnews%2Fitems%2F1259150937594&_pageLabel=page_latest_news

Imágenes de México

En la primera foto inferior se observa una Lasagna colombiana preparada por la esposa de un amigo, en Colombia no se acostumbra comer tortilla para acompañar los platillos como en México, para ello se acompaña casi siempre con sopa de arroz.

Algunas imágenes las tome desde  la 2da. Torre Zafiro y Torre Mayor.

fueron días que disfrute enormemente donde la hospitalidad de la gente de Applied Biosystems e Inmegen fue más que excelente.

SOLiD: Platica análisis de datos en Inmegen

La semana pasada asistí al curso del instrumento de secuenciación por ligación “SOLiD 3 Plus” impartido por Applied Biosystems, el curso se llevo a cabo en el Instituto Nacional de Medicina Genomica. El viernes colabore un poco impartiendo una platica introductoria sobre el análisis de los datos via offline y los formatos de las lecturas de SOLiD.

Fue un enorme gusto y placer el colaborar con Applied Biosystems y el Inmegen en esta pequeña platica que impartí.

Blast Html Embed

A mediados del pasado año 2007 rápidamente desarrolle un programa que permite embeber código html dentro de los reportes que BLAST genera al terminar de hacer un alineamiento y surge como necesidad para la interfaz Query Sequence Visualizer ya que la interfaz tiene un modulo que permite alinear secuencias mediante blast, pero el reporte resultante necesita vincular las secuencias que dieron hit y posteriormente verlas mediante un pequeño browser web que desarrolle  el cual aun permanece  en estado beta ya que hay nuevos cambios y mejoras.

El código html puede embeberse donde sea y como sea necesario.

Sitio de red: http://hackob.openenchilada.com/projects/soft/bio/bhtmlembed/

Blast Xml to Database (bxml2db)

Después de mucho tiempo sin anunciar una aplicación que desarrolle en mi actual empleo, finalmente me anime a platicar un poco sobre esta aplicación.
Prácticamente el programa no hace gran cosa, solo interpreta los archivos resultantes, en formato xml, del alineamiento que realiza blast, y los va automáticamente almacenando en una base de datos como MySql o PostgreSql , a elección del usuario, técnicamente el proceso lo realiza sin volcar a memoria nada mas que el objeto en si ,de esta manera es posible usar archivos de gran tamaño arriba de 2 GB y el consumo de memoria es mínimo, el uso de cpu si es aprovechado lo más posible.

¿Quien está usando el programa? gracias a Fran Gonzalez, el Centro de Investigación del Cancer en (Universidad de Salamanca-Consejo Superior de Investigaciones Científicas en España), quien le resulto provechoso y sus  resultados se llevaron con éxito.

¿ Sitio de red ? temporalmente he elaborado rápidamente el sitio web del proyecto, más adelante moveré la aplicación al lugar donde pertenecen, los binarios y fuentes del programa no están disponibles si no por solicitud , la cual más adelante comentare al respecto de los detalles, la ayuda del programa esta disponible en el icono de la bandera en la sección de documentación.

Haz clic aquí para entrar al sitio oficial

¿En que está escrito el algoritmo? en C# y corre en Mono sobre Linux, Windows, Mac. podría sin mucha complicación migrarlo a Vala.

El hospedaje del servidor fue gracias a Mauro, de nueva cuenta muchas gracias Mauro

Matching Pipeline

La siguiente versión del diagrama de flujo que desarrollé está mal!! ya que hay puntos que han cambiado para el mapeo de los reads de 25bp hacia el genoma de referencia.

Mi articulo en la revista Mundo Linux

Revista Europea Mundo Linux Numero 67 de Julio 2004

Pasados 2 años y medio de lanzar mi versión de MAME (pronto mi nuevo espacio para subir el emulador) me anime a publicar , ya con un poco de experiencia en el tema, un articulo sobre emulación de maquinas recreativas y consolas en la revista europea “Mundo Linux”, donde básicamente intentaba justificar y dar respuesta a la pregunta:

¿Quien dijo que en GNU/Linux no te puedes divertir?

al mencionar el termino “divertir” me refiero a divertirte más allá de configurar , administrar servidores y ofrecer servicios de todo lo que se te ocurriera, evidentemente me refiero a vídeo juegos, ya que hay muchos usuarios en todo el mundo que les encanta pasarse las horas jugando.

El articulo fue posible distribuirlo gracias a la gente de la revista “Mundo Linux”.

Comparto algunas imágenes del articulo publicado:

Alguna ligas de interés:

Sitio Web en Yahoo Geocities

Sitio Web en Emu-Hispano