Skip to main content

Getting started with ML4Bio

·178 words·
Brief Guide Basic Machine Learning Deep Learning Omics Multi-Omics Python Conda Mamba PyTorch R
Table of Contents

ML \(\times\) Omics
#


Bioinformatics data acquisition and analysis
#

Measurement & Observation
#

  1. 基于现有技术,能获取哪些生物信息?
  2. 观测的尺度:分子——细胞器——细胞——组织——器官——个体——种群?时间、空间?分辨率?滞后现象?
  3. 背景信息:生长环境、测量技术差异、批次效应……
  4. 什么是测序,组学数据的获取只能通过测序手段吗?
  5. 主流的商用组学测量技术?所测数据分别蕴含了哪些多层次多角度的生物学意义?它们在计算机上如何表示与存储,有哪些常见文件类型?

Search & Download
#

  • 略。

Data analysis
#


Machine Learning
#

  • 为什么需要机器学习?ML能解决哪些类型的问题?
  • 可从哪些角度将ML分为哪些类型?机器学习与深度学习的关系?
  • 机器学习效果一定比经典统计方法好吗?
  • 深度学习一定优于经典的机器学习吗?

先学习 Basic programming skills

scikit-learn 是一个机器学习库。它的说明文档详实,适合理论学习与上手尝试。可以查找它的中文资料来辅助学习,建议少看视频教程,多看系统性的算法详解。

  1. 数据集的保存格式有哪些?机器学习为什么要划分数据集,有哪些划分方法?
  2. 机器学习按学习理论分为哪几类?
  3. 如何训练模型,评估模型的表现?
  4. 除了用来预测,模型的其他用途?
  5. 先了解这些算法及思想:SVM, RF, GBM, k-Means, DBSCAN, PCA, UMAP, MLP, VAE.

Deep Learning
#

  • PyTorch 是一个常用的深度学习框架。
  1. 安装哪个版本?
  2. 上手尝试:手写数字识别教程,MLP、CNN、Transformer 基础教程。
  3. 如何进行模型训练?基本方法、损失函数 (loss)、促进拟合、防止过拟合的策略?
  4. 如何评估预测效果?有哪些 loss 计算方法?

Basic programming skills
#

建议 Windows 用户使用 WSL 来运行 Linux 并进行基础学习。

  1. CPU 架构有哪些?它们的区别?
  2. 为什么需要 GPU ?CUDA 是什么?其他的GPU加速方案?
  3. Linux, Windows, MacOS 的主要区别?
  4. 常用的文本编码有哪些?Windows 默认的文本编码与 Linux 有区别吗?
  5. 文件系统的类别与差异?
  6. 文件路径:工作路径、相对路径、绝对路径、快捷方式、软链接、硬链接。
  7. 如何设置软件源镜像 (mirror)?
  8. SSH 的使用,配置 Bash 或 Zsh 。
  9. VS Code 及插件的使用(在入门阶段最好不要用大型语言模型辅助写代码)。
  10. 掌握 Git,了解 GitHub、GitLab、Gitee。
  11. 了解 Licenses,如何选择开源协议?
  12. Markdown、Jupyter Notebook 的使用。

Linux
#

  • 如果需要在 Windows 上使用 Linux,可以使用 Windows Subsystem for Linux (WSL),请仔细阅读微软官网教程来配置。

Conda / Mamba
#

注:Mamba 是 Conda 的高效替代品,建议在使用 conda 时将其用 mamba 替代。

  1. 为什么需要软件环境管理?
  2. pip 与 Conda / Mamba 的区别?
  3. 仅能管理 Python 吗?
  4. 基础的软件环境管理、安装、激活、退出操作。

Python
#

  1. Python 的特点、优势领域?
  2. 学习常用软件包:Numpy、Pandas、Polars。绘图:Matplotlib、Seaborn。
  3. 高效数据格式:npy、parquet、pickle。

R
#

  1. R 的特点及优势领域,R 与 Python 的区别。
  2. 学习基础数据类型、基础语法,读写表格文件。
  3. 常用软件包:dplyr、tidyverse 。绘图:ggplot2 。
Chenhua Wu
Author
Chenhua Wu
A Master’s student at NWAFU.