Skip to main content

Getting started with ML4Bio

·137 words·
Brief Guide Basic Machine Learning Deep Learning Omics Multi-Omics Python Conda Mamba PyTorch R
Table of Contents

ML \(\cup\) Omics
#


生物组学数据获取与分析
#

测量
#

Measurement || Observation

  1. 基于现有技术,能获取哪些生物信息?
  2. 观测的尺度:分子——细胞——组织——器官——个体——种群?时间、空间?分辨率?
  3. 背景信息:生长环境、测量技术差异、批次效应……
  4. 什么是测序,组学数据的获取只能通过测序手段吗?
  5. 主流的商用组学测量技术?测得数据分别蕴含了哪些多层次多角度的生物学意义?它们在计算机上如何表示与存储,有哪些文件类型?

搜索与下载
#

  • 略。

分析
#

  • 略。学习原始数据处理可暂缓。

机器学习
#

为什么需要机器学习?ML能解决哪些类型的问题?

可从哪些角度将ML分为哪些类型?机器学习与深度学习的关系?

机器学习效果一定比经典统计方法好吗?

深度学习一定优于经典的机器学习吗?

  • 先学习基础编程知识与技能
  • scikit-learn 是Python的机器学习库。它的说明文档详实,适合理论学习与上手尝试。可以查找它的中文资料来辅助学习,建议少看视频教程,多看系统性的算法详解。
  1. 数据集的保存格式有哪些?机器学习为什么要划分数据集,有哪些划分方法?
  2. 机器学习按学习理论分为哪几类?
  3. 如何训练模型,评估模型的表现?
  4. 除了用来预测,模型的其他用途?
  5. 先了解这些算法及思想:SVM, RF, GBM, k-Means, DBSCAN, PCA, UMAP, MLP, VAE.

深度学习
#

  • PyTorch 是一个常用的深度学习框架。
  1. 安装哪个版本?
  2. 上手尝试:手写数字识别教程,MLP、CNN、Transformer 基础教程。
  3. 如何进行模型训练?基本方法、损失函数 (loss)、促进拟合、防止过拟合的策略?
  4. 如何评估预测效果?有哪些 loss 计算方法?

基础编程知识与技能
#

  1. CPU 架构有哪些?它们的区别?
  2. 为什么需要 GPU ?CUDA 是什么?
  3. Linux, Windows, MacOS 的主要区别?
  4. 常用的文本编码有哪些?Windows 默认的文本编码与 Linux 有区别吗?
  5. 文件系统的类别与差异?
  6. SSH 的使用,配置 Bash 或 Zsh 。
  7. 文件路径:工作路径、相对路径、绝对路径、快捷方式、软链接、硬链接。
  8. 如何设置软件源镜像 (mirror)?
  9. VS Code 及插件的使用(在入门时期最好不要用大型语言模型辅助写代码)。
  10. 掌握 Git,了解 GitHub、GitLab、Gitee。
  11. 了解 Licenses,如何选择开源软件?
  12. Markdown、Jupyter Notebook 的使用。

Conda / Mamba
#

Download Miniforge

注:Mamba 是 Conda 的高效替代品。

  1. 为什么需要软件环境管理?
  2. pip 与 Conda / Mamba 的区别?
  3. 仅能管理 Python 吗?
  4. 基础的软件环境管理、安装、激活、退出操作。

Python
#

Download

  1. Python 的特点、优势。
  2. 学习常用软件包:Pandas、Numpy。绘图:Matplotlib、 Seaborn。

R
#

Download

  1. R 的特点、优势,R 与 Python 的区别。
  2. 学习基础数据类型、基础语法,读写表格文件。
  3. 常用软件包:dplyr、tidyverse 。绘图:ggplot2 。
  4. RStudio 与 RStudio Server。
Chenhua Wu
Author
Chenhua Wu
A Master’s student at NWAFU.