Python for Machine Learning#

前言#

我当时在做一个和机器学习（Machine Learning，ML）、深度学习（Deep Learning，DL）、Cybersecurity 有关的项目，但自己对 Python 工程经验、ML 和 DL 都不够熟悉，直接看课程和书会比较吃力。因此这篇文章整理的是一份快速补齐 Python 基础的路线，目标不是把 Python 学到很深，而是尽快能读懂 ML/DL/强化学习（Reinforcement Learning，RL）相关代码，并能开始做实验。

如果后续要系统做 ML 或 DL，Python 基础越扎实越好；但入门阶段不必追求一次性学完所有语法。先掌握最常用的语言结构、数据处理、文件读写、包管理和调试方法，就足够支撑后续继续学习。

1. 基础语法#

需要先熟悉变量、数据类型、条件分支、循环、函数和类。写代码时尽量保持命名清晰、结构简单，后续读 ML 代码会轻松很多。

1
# Variables and basic data types
2
name = "John"
3
age = 25
4
is_student = True
5
height = 1.75
6

7
# Control flow statements - if-else
8
if age >= 18:
9
    print("You are an adult.")
10
else:
11
    print("You are a minor.")
12

13
# Loops - for loop
14
for i in range(1, 6):
15
    print(i)
16

17
# Functions
18
def greet(name):
19
    print("Hello, " + name + "!")
20

21
greet("Alice")
22

23
# Classes and objects
24
class Person:
25
    def __init__(self, name, age):
26
        self.name = name
27
        self.age = age
28

29
    def introduce(self):
30
        print("My name is", self.name, "and I am", self.age, "years old.")
31

32
person1 = Person("Alice", 25)
33
person1.introduce()
34

35
person2 = Person("Bob", 30)
36
person2.introduce()

这里最容易困惑的是 __init__ 和 self。__init__ 是类的构造方法，创建对象时会自动调用；self 表示当前对象本身，用来访问对象自己的属性和方法。比如 self.name = name 就是把传入的 name 保存到这个对象上。

2. 数据结构#

Python 内置的 list、tuple、dict 和 set 非常常用。ML 代码里经常需要组织样本、标签、配置和中间结果，所以至少要掌握索引、切片、遍历、增删改查这些操作。

1
# Lists
2
fruits = ['apple', 'banana', 'orange']
3
print(fruits)
4

5
print(fruits[0])
6
print(fruits[-1])
7

8
fruits[1] = 'grape'
9
fruits.append('mango')
10
removed_fruit = fruits.pop(1)
11
print(removed_fruit)
12
print(fruits)
13

14
# Tuples
15
person = ('John', 25, 'USA')
16
name, age, country = person
17
print(name, age, country)
18

19
# Dictionaries
20
student = {'name': 'Alice', 'age': 20, 'major': 'Computer Science'}
21
print(student['name'])
22
print(student.get('age'))
23

24
student['age'] = 21
25
student['university'] = 'ABC University'
26
removed_major = student.pop('major')
27
print(removed_major)
28
print(student)

dict 在实验代码里尤其常见，常被用来保存超参数、指标、配置项和数据字段。相比用多个列表硬凑，字典能直接表达“键 -> 值”的映射关系。

3. 常用库和模块#

进入 ML 前，至少要知道怎么导入库，以及几个基础库各自做什么。

1
import math
2
import random
3

4
print(math.sqrt(25))
5
print(math.pi)
6
print(random.randint(1, 10))
7
print(random.choice(['apple', 'banana', 'orange']))
8

9
from datetime import date
10
from random import shuffle
11

12
today = date.today()
13
print(today)
14

15
my_list = [1, 2, 3, 4, 5]
16
shuffle(my_list)
17
print(my_list)
18

19
import numpy as np
20
import pandas as pd
21

22
array = np.array([1, 2, 3, 4, 5])
23
print(array)
24

25
data_frame = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]})
26
print(data_frame)

常用库可以先按用途记：

NumPy：数值计算和数组操作，是很多科学计算库的基础。
Pandas：表格数据处理，常用于读 CSV、清洗数据、做统计分析。
Matplotlib：画图和可视化，适合看数据分布和模型结果。
scikit-learn：传统 ML 常用库，包含分类、回归、聚类、降维、评估等工具。
TensorFlow / PyTorch：DL 框架，用来搭建和训练神经网络。

一个很简化的 scikit-learn 示例：

1
import pandas as pd
2
from sklearn.model_selection import train_test_split
3
from sklearn.linear_model import LogisticRegression
4
from sklearn.metrics import accuracy_score
5

6
# Load the dataset
7
data = pd.read_csv('data.csv')
8

9
# Split the dataset into features and labels
10
X = data.drop('label', axis=1)
11
y = data['label']
12

13
# Split the data into training and testing sets
14
X_train, X_test, y_train, y_test = train_test_split(
15
    X, y, test_size=0.2, random_state=42
16
)
17

18
# Train a logistic regression model
19
model = LogisticRegression()
20
model.fit(X_train, y_train)
21

22
# Evaluate the model
23
y_pred = model.predict(X_test)
24
accuracy = accuracy_score(y_test, y_pred)
25
print('Accuracy:', accuracy)

4. 文件读写#

做 ML 时经常要读数据集、保存处理结果、写日志或者保存配置。最基本的是理解 with open(...) 的写法，它能保证文件用完后正确关闭。

1
def write_to_file(filename, content):
2
    with open(filename, 'w') as file:
3
        file.write(content)
4

5

6
def read_from_file(filename):
7
    with open(filename, 'r') as file:
8
        return file.read()
9

10

11
filename = "example.txt"
12
content_to_write = "Hello, World!"
13

14
write_to_file(filename, content_to_write)
15
content_read = read_from_file(filename)
16
print(content_read)

如果不想覆盖已有文件，可以先检查文件是否存在：

1
import os
2

3

4
def write_to_file(filename, content):
5
    if os.path.isfile(filename):
6
        print(f"File '{filename}' already exists.")
7
    else:
8
        with open(filename, 'w') as file:
9
            file.write(content)
10
        print(f"Content '{content}' written to '{filename}'.")

更完整一点的版本可以加异常处理和追加写入：

1
def write_to_file(filename, content):
2
    try:
3
        with open(filename, 'w') as file:
4
            file.write(content)
5
        print(f"Content written to '{filename}' successfully.")
6
    except IOError as e:
7
        print(f"Error writing to '{filename}': {e}")
8

9

10
def read_from_file(filename):
11
    try:
12
        with open(filename, 'r') as file:
13
            return file.read()
14
    except FileNotFoundError:
15
        print(f"File '{filename}' not found.")
16
    except IOError as e:
17
        print(f"Error reading from '{filename}': {e}")
18

19

20
def append_to_file(filename, content):
21
    try:
22
        with open(filename, 'a') as file:
23
            file.write(content)
24
        print(f"Content appended to '{filename}' successfully.")
25
    except IOError as e:
26
        print(f"Error appending to '{filename}': {e}")
27

28

29
filename = "example.txt"
30
write_to_file(filename, "Hello, World!")
31
append_to_file(filename, "\nAppending some more content!")
32
print(read_from_file(filename))

5. ML/DL 相关函数和库#

不需要一开始就掌握所有框架，但要知道基本分工。

NumPy：负责矩阵、向量、随机数、线性代数等基础数值计算。
Pandas：负责结构化数据的读取、筛选、合并、清洗和统计。
scikit-learn：适合传统 ML，比如线性回归、逻辑回归、SVM、随机森林、KMeans 等。
TensorFlow：Google 推出的 DL 框架，配合 Keras 可以快速搭模型。
PyTorch：动态图机制更直观，科研和原型验证里非常常见。
Matplotlib：画 loss 曲线、散点图、直方图、预测结果等。

1
import numpy as np
2
import pandas as pd
3
from sklearn.linear_model import LinearRegression
4
import matplotlib.pyplot as plt
5

6
# Generate sample data
7
X = np.random.rand(100, 1)
8
y = 2 * X + np.random.randn(100, 1)
9

10
# Create a Pandas DataFrame
11
df = pd.DataFrame({'X': X.flatten(), 'y': y.flatten()})
12

13
# Fit a linear regression model
14
model = LinearRegression()
15
model.fit(X, y)
16

17
# Predict the output
18
X_new = np.array([[0.2], [0.4], [0.6]])
19
y_pred = model.predict(X_new)
20

21
# Plot the data and regression line
22
plt.scatter(X, y, color='blue', label='Data')
23
plt.plot(X_new, y_pred, color='red', linewidth=2, label='Regression Line')
24
plt.xlabel('X')
25
plt.ylabel('y')
26
plt.legend()
27
plt.show()

这段代码包含了一个典型的最小流程：生成数据、组织数据、训练模型、预测、可视化。后续复杂模型基本也是在这个流程上扩展。

6. 异常处理和调试#

写 ML 代码时，错误不一定来自算法，也可能来自数据维度、文件路径、包版本、数据类型。先掌握基础调试方法很重要。

常见错误大致可以分为：

语法错误：代码本身不符合 Python 语法。
运行时错误：比如文件不存在、数组越界、类型不匹配。
逻辑错误：代码能跑，但结果不对，这类最难查。

异常处理的基本写法如下：

1
try:
2
    # Code that might raise an exception
3
    result = 10 / 0
4
except ZeroDivisionError:
5
    print("Cannot divide by zero")
6
except Exception as e:
7
    print("Unexpected error:", e)

也可以用 logging 代替大量 print，尤其是训练过程比较长的时候：

1
import logging
2

3
logging.basicConfig(level=logging.DEBUG)
4

5
logging.debug('This is a debug message')
6
logging.info('This is an info message')
7
logging.warning('This is a warning message')
8
logging.error('This is an error message')

调试时建议先读报错信息和 stack trace，定位出错行；如果问题不明显，就逐步缩小代码范围，检查关键变量的 shape、dtype 和取值。

7. 包管理#

ML/DL 项目依赖通常比较多，环境管理不清楚很容易出现“在我机器上能跑”的问题。

pip：Python 默认包管理器，例如 pip install numpy。
venv：Python 内置虚拟环境工具，可以为每个项目创建独立环境。
conda：常用于数据科学项目，适合管理 Python 版本、CUDA 相关依赖和科学计算库。
requirements.txt：记录项目依赖，常用 pip freeze > requirements.txt 生成，用 pip install -r requirements.txt 安装。
版本约束：例如 numpy==1.26.4 表示固定版本，torch>=2.0.0 表示最低版本。

一个简单流程：

1
python -m venv .venv
2
source .venv/bin/activate
3
pip install numpy pandas scikit-learn matplotlib
4
pip freeze > requirements.txt

后续如果换机器或给别人复现，可以直接：

1
python -m venv .venv
2
source .venv/bin/activate
3
pip install -r requirements.txt

小结#

这篇文章的重点是：为了学习 ML/DL，不需要先把 Python 所有细节都学完，但要先掌握能支撑实验代码的核心能力，包括基础语法、常见数据结构、常用库、文件读写、异常处理、调试和包管理。

接下来比较适合的路线是：先用 NumPy 和 Pandas 做数据处理，再用 scikit-learn 跑几个传统 ML 模型，最后进入 PyTorch 或 TensorFlow。边学边写小实验，比单纯看教程有效很多。