Tantárgy adatlapja

Tárgy neve: Genomikai nyelvmodellek
Tárgy kódja: P_DO_0307
Óraszám: N: 2/2/2, L: 0/0/0
Kreditérték: 6
Az oktatás nyelve: angol, magyar
Követelmény típus: Gyakorlati jegy
Felelős kar: ITK
Felelős szervezeti egység: ITK Doktori és Habilitációs Iroda
Tárgyfelelős oktató: Dr. Ligeti Balázs
Tárgyleírás:

This course explores the intersection of genomics and machine learning through the lens of genomic language models. Students will learn about the latest advancements in bioinformatics that utilize natural language processing techniques to interpret and predict genomic sequences, their functionalities, and interactions.

Weekly topics:

  1. Introduction to genomics and machine learning
  2. Basics of natural language processing
  3. Data acquisition and processing in genomics
  4. Overview of genomic language models
  5. Practical session: Trying out different genomic language models
  6. Techniques for sequence modeling
  7. Training models on genomic data
  8. Benchmarking genomic language models
  9. Case studies: Applications of genomic language models
  10. Interpretability of models in genomics
  11. Ethical considerations in genomic research
  12. Advanced topics in genomic predictions

Selected literature:

  Goodfellow, Ian, et al. "Deep Learning." MIT Press, 2016, ISBN 9780262035613 (specific pages on neural networks).

  Lesk, Arthur M. "Introduction to Bioinformatics." Oxford University Press, 2019, ISBN 9780198794141 (relevant chapters on genomics).

  Ligeti, Balázs, et al. "ProkBERT family: genomic language models for microbiome applications." Front. Microbiol., 12 January 2024, sec. Evolutionary and Genomic Microbiology, vol. 14, 2023, https://doi.org/10.3389/fmicb.2023.1331233.

  Zhou, Zhihan, et al. "DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome." Nature Methods, 28 November 2024.

  Dalla-Torre, Hugo, et al. "Nucleotide Transformer: building and evaluating robust foundation models for human genomics." Nature Methods, 2024.

Required skills:

·  Ability to apply machine learning techniques to biological data

·  Understanding of genomic sequence analysis using computational models

·  Skill in interpreting results from bioinformatic models for practical applications

 

A tárgy az alábbi képzéseken vehető fel

Roska Tamás Műszaki és Természettudományi Doktori Iskola képzése IDNI-IMTX Doktori képzés (PhD/DLA) (Nftv. 114 (2)) Nappali magyar 8 félév ITK
Roska Tamás Műszaki és Természettudományi Doktori Iskola képzése IDNI-AIMTX Doktori képzés (PhD/DLA) (Nftv. 114 (2)) Nappali angol 8 félév ITK
Roska Tamás Műszaki és Természettudományi Doktori Iskola képzése IDLI-AIMTX Doktori képzés (PhD/DLA) (Nftv. 114 (2)) Levelező angol 8 félév ITK
szechenyi-img-alt