ML \(\times\) Omics #
Bioinformatics data acquisition and analysis #
Measurement & Observation #
- 基于现有技术,能获取哪些生物信息?
- 观测的尺度:分子——细胞器——细胞——组织——器官——个体——种群?时间、空间?分辨率?滞后现象?
- 背景信息:生长环境、测量技术差异、批次效应……
- 什么是测序,组学数据的获取只能通过测序手段吗?
- 主流的商用组学测量技术?所测数据分别蕴含了哪些多层次多角度的生物学意义?它们在计算机上如何表示与存储,有哪些常见文件类型?
Search & Download #
- 略。
Data analysis #
Machine Learning #
- 为什么需要机器学习?ML能解决哪些类型的问题?
- 可从哪些角度将ML分为哪些类型?机器学习与深度学习的关系?
- 机器学习效果一定比经典统计方法好吗?
- 深度学习一定优于经典的机器学习吗?
scikit-learn 是一个机器学习库。它的说明文档详实,适合理论学习与上手尝试。可以查找它的中文资料来辅助学习,建议少看视频教程,多看系统性的算法详解。
- 数据集的保存格式有哪些?机器学习为什么要划分数据集,有哪些划分方法?
- 机器学习按学习理论分为哪几类?
- 如何训练模型,评估模型的表现?
- 除了用来预测,模型的其他用途?
- 先了解这些算法及思想:SVM, RF, GBM, k-Means, DBSCAN, PCA, UMAP, MLP, VAE.
Deep Learning #
- PyTorch 是一个常用的深度学习框架。
- 安装哪个版本?
- 上手尝试:手写数字识别教程,MLP、CNN、Transformer 基础教程。
- 如何进行模型训练?基本方法、损失函数 (loss)、促进拟合、防止过拟合的策略?
- 如何评估预测效果?有哪些 loss 计算方法?
Basic programming skills #
建议 Windows 用户使用 WSL 来运行 Linux 并进行基础学习。
- CPU 架构有哪些?它们的区别?
- 为什么需要 GPU ?CUDA 是什么?其他的GPU加速方案?
- Linux, Windows, MacOS 的主要区别?
- 常用的文本编码有哪些?Windows 默认的文本编码与 Linux 有区别吗?
- 文件系统的类别与差异?
- 文件路径:工作路径、相对路径、绝对路径、快捷方式、软链接、硬链接。
- 如何设置软件源镜像 (mirror)?
- SSH 的使用,配置 Bash 或 Zsh 。
- VS Code 及插件的使用(在入门阶段最好不要用大型语言模型辅助写代码)。
- 掌握 Git,了解 GitHub、GitLab、Gitee。
- 了解 Licenses,如何选择开源协议?
Markdown
、Jupyter Notebook 的使用。
Linux #
- 如果需要在 Windows 上使用 Linux,可以使用 Windows Subsystem for Linux (WSL),请仔细阅读微软官网教程来配置。
Conda / Mamba #
注:Mamba 是 Conda 的高效替代品,建议在使用
conda
时将其用mamba
替代。
- 为什么需要软件环境管理?
- pip 与 Conda / Mamba 的区别?
- 仅能管理 Python 吗?
- 基础的软件环境管理、安装、激活、退出操作。
Python #
- Python 的特点、优势领域?
- 学习常用软件包:Numpy、Pandas、Polars。绘图:Matplotlib、Seaborn。
- 高效数据格式:npy、parquet、pickle。
R #
- R 的特点及优势领域,R 与 Python 的区别。
- 学习基础数据类型、基础语法,读写表格文件。
- 常用软件包:dplyr、tidyverse 。绘图:ggplot2 。