GenBank2Html Flat File Parser

En mi trabajo he estado desarrollando varias herramientas de software del tipo bioinformatico, y la herramienta que voy a describir es desarrollada por mi propia iniciativa la cual no se va usar en mi trabajo, por consecuencia esta fuera de todo contexto legal para distribuirla como software libre.

Flat File es un archivo de texto que contiene datos en la forma de campos y registros, un archivo de este tipo puede ser creado con un simple editor de textos, cada campo o registro puede ser separado con un delimitador, el cual es un carácter especial que separa cada campo o registro por ejemplo “caracter tabulador”.

GenBank es una base de datos de secuencias genéticas, básicamente una coleccion de secuencias  publicas de DNA. GenBank es parte de la colaboración internacional de bases de datos para secuencias de nucleotidos, en esta colaboración tambien entra DDBJ(DNA DataBank of JAPAN), EMBL(European Molecular Biology Laboratory) y el GenBank del NCBI.

Cada entrada en el flat file de GenBank consiste de una descripción concisa de la secuencia por ejemplo el nombre cientifico , la taxonomia de la fuente del organismo y una tabla de caracteristicas que identifican regiones codificantes y otros sitios que tienen significado biologico por ejemplo unidades de transcripción, sitios de mutación, repetidos..entre otros muchos datos importantes.

Despues de esta pequeña introducción les describire sobre el programa.

El alcanze que tiene es solo de parsear un archivo con multiples bloques de datos de cada secuencia con un identificador o nombre por ejemplo E09Contigfulanito, despues genera x numero de archivos con la informacion completa de cada secuencia en cada archivo.

El formato del archivo que se genera dinamicamente es HTML ya que el parser hace una inyeccion de HTML dinamicamente mientras va parseando el archivo de GenBank.

Entonces si hay  200 mil secuencias en un archivo , el parser genera 200 mil archivos HTML.

Requisitos

  • La runtime de mono y quiza los compiladores de C#
  • Opcionalmente puedes usar los compiladores de Microsoft .NET C#

¿Donde lo puedo ejecutar?

En Windows, GNU/Linux y Mac OS X

¿Para que sirve?

se me ocurre que en una interfaz de cualquier indole al momento de consultar una secuencia se puede extraer la informacion de GenBank de la secuencia muy rapidamente, sin tener que realizar un super busqueda en un solo archivo grande de GenBank que consumiria mucho tiempo en realizarla.

Descargas/Downloads

http://jacob.ad-sistemas.com/projects/bio/genbank2any/GenBank2Html.tar.gz

¿Como usar?

  1. Leer el archivo README.
  2. mono GenBank2Any.exe – -file test/testdata.gb – -mode html
  3. mono GenBank2Any.exe – -help , si quieres ver la corta ayuda😉

En el paquete añadi un directorio llamado “test” ahi viene un pequeñisimo archivo con 6 secuencias con el que se puede probar.

Cualquier duda no duden en contactarme , jacobnix@gmail.com

About Jacob

I'm a Bioinformatics Developer, Software Engineer, Open Source Developer, Mobile Developer, Unix/Linux SysAdmin, HPC Sysadmin

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s