跳转到内容

第九讲 微积分——从穷竭法到计算规则

第九讲 微积分——从穷竭法到计算规则

Section titled “第九讲 微积分——从穷竭法到计算规则”

这一讲不把微积分讲成 Newton 和 Leibniz 的人物故事,而是讲一个数学方法怎样形成:古希腊的 exhaustion 可以证明某些面积结果,但很难成为日常计算工具;17 世纪的数学家把面积、体积、切线、极值这些问题改写成代数程序,微积分因此成为一种可重复使用的 calculation。

Stillwell 第 9 章的重点不是现代严格极限理论,而是早期微积分的计算性:Cavalieri 和 Fermat 处理幂函数面积,Fermat 处理切线和极值,Wallis 用大胆的 analogy 和 interpolation 推广公式,Newton 把函数看成 infinite series,Leibniz 用 notation 和 rules 让方法传播。

本讲要让学生真正做三件事:

  • 从 power sums 推出一个面积;
  • 用 Fermat 的小量 EE 求一条切线;
  • 从 geometric series 推出 logarithm series。

问题入口:为什么穷竭法不够用

Section titled “问题入口:为什么穷竭法不够用”

Archimedes 可以用 exhaustion 求出抛物线弓形面积,也可以处理球和圆柱的体积。但这些证明通常为某个图形专门设计,不能直接变成一套通用算法。

17 世纪数学家面对的问题更密集:

  • 曲线 y=xky=x^k 下方面积是多少?
  • 旋转体体积怎么求?
  • 曲线某点的切线斜率是多少?
  • 函数在哪里取得 maximum 或 minimum?
  • 对数、三角函数、反三角函数能不能计算?

微积分最早的力量就在这里:它把“每次都要发明一个证明”变成了“按规则计算”。

1. Areas and volumes:面积问题变成幂和问题

Section titled “1. Areas and volumes:面积问题变成幂和问题”

先看最基本的面积:曲线 y=xky=x^k[0,a][0,a] 下方的面积。

把区间分成 nn 份,用右端点矩形近似。第 ii 个矩形的宽是 a/na/n,高是 (ia/n)k(ia/n)^k,所以总面积近似为

An=an[(an)k+(2an)k++(nan)k].A_n=\frac{a}{n}\left[\left(\frac{a}{n}\right)^k+\left(\frac{2a}{n}\right)^k+\cdots+\left(\frac{na}{n}\right)^k\right].

整理得

An=ak+1nk+1(1k+2k++nk).A_n=\frac{a^{k+1}}{n^{k+1}}(1^k+2^k+\cdots+n^k).

因此,面积问题被转化为 power sums 的问题。

k=2k=2 为例,使用

12+22++n2=n(n+1)(2n+1)6,1^2+2^2+\cdots+n^2=\frac{n(n+1)(2n+1)}{6},

得到

An=1n3n(n+1)(2n+1)6=(n+1)(2n+1)6n2.A_n=\frac{1}{n^3}\cdot \frac{n(n+1)(2n+1)}{6} =\frac{(n+1)(2n+1)}{6n^2}.

nn 越来越大,AnA_n 趋向

13.\frac13.

这就是

01x2dx=13.\int_0^1 x^2\,dx=\frac13.

Cavalieri、Fermat、Roberval 等人的工作可以理解为把这类结果推广到更多幂函数,最终得到

0axkdx=ak+1k+1.\int_0^a x^k\,dx=\frac{a^{k+1}}{k+1}.

这里的重点不是先讲 modern integral,而是让学生看到:积分一开始和求和、幂和、逼近密切相连。

2. Fermat 的切线方法:先算,再解释

Section titled “2. Fermat 的切线方法:先算,再解释”

切线问题比面积问题更晚成熟。原因之一是:面积可以用很多小块逼近,但切线需要抓住“瞬时方向”。

Fermat 的方法可以从 y=x2y=x^2 看起。取相邻的两个点 xxx+Ex+E,割线斜率是

(x+E)2x2E=2xE+E2E=2x+E.\frac{(x+E)^2-x^2}{E} =\frac{2xE+E^2}{E} =2x+E.

EE 足够小,割线接近切线,于是舍去 EE,得到切线斜率 2x2x

现代人会写成

limE0(2x+E)=2x.\lim_{E\to 0}(2x+E)=2x.

但 Fermat 的语言不是极限。他的计算方式是:先把 EE 当作非零量,完成代数除法;最后再把含 EE 的小项忽略。

这个步骤在今天看容易补上 rigor,但在当时确实会引起质疑:

  • 如果 E=0E=0,为什么可以除以 EE
  • 如果 E0E\ne 0,为什么最后可以扔掉?

这正是早期微积分的历史状态:方法先有效,基础后来被整理。

再做一次 y=x3y=x^3

(x+E)3x3E=3x2E+3xE2+E3E=3x2+3xE+E2.\frac{(x+E)^3-x^3}{E} =\frac{3x^2E+3xE^2+E^3}{E} =3x^2+3xE+E^2.

舍去含 EE 的项,得到斜率

3x2.3x^2.

学生由此猜出

ddxxk=kxk1.\frac{d}{dx}x^k=kx^{k-1}.

3. Maxima, minima, tangents:解析几何让切线可计算

Section titled “3. Maxima, minima, tangents:解析几何让切线可计算”

解析几何把曲线写成方程。这样,切线问题就可以变成代数问题。

例如曲线若由 F(x,y)=0F(x,y)=0 给出,切线方向可以通过 xxyy 的微小变化来计算。Fermat、Hudde、Sluse 等人的方法虽然没有今天的 implicit differentiation 语言,但已经在处理类似问题。

一个课堂可做的例子是:

y2=x3.y^2=x^3.

若用现代记号,implicit differentiation 给出

2ydydx=3x2,2y\frac{dy}{dx}=3x^2,

所以

dydx=3x22y.\frac{dy}{dx}=\frac{3x^2}{2y}.

历史上重要的不是学生背这个公式,而是看到:一旦曲线有方程,切线就不再只靠几何直觉,而可以被 algebraic manipulation 处理。

如果只把导数理解成 tangent slope,微积分的力量会被低估。更深的一步是:在一个点附近,函数可以先用线性函数替代。

现代写法是

f(x+h)=f(x)+f(x)h+higher order terms.f(x+h)=f(x)+f'(x)h+\text{higher order terms}.

其中 f(x)hf'(x)h 是增量的 principal linear part。早期数学家没有这套语言,但他们已经在使用同一个想法:忽略更高阶的小量,保留一阶变化。

例如估计 10.4\sqrt{10.4}。取 f(x)=xf(x)=\sqrt{x},在 x=10x=10 处展开:

f(10)=1210.f'(10)=\frac{1}{2\sqrt{10}}.

所以

10.410+0.4210.\sqrt{10.4}\approx \sqrt{10}+\frac{0.4}{2\sqrt{10}}.

这不是“画一条切线”的几何装饰,而是把一个不容易心算的函数值变成局部线性计算。Newton method 正是这个思想的算法版本。

设要求方程 f(x)=0f(x)=0 的根。在当前近似 xkx_k 附近,用切线

y=f(xk)+f(xk)(xxk)y=f(x_k)+f'(x_k)(x-x_k)

替代曲线,再让切线与 xx-axis 相交:

0=f(xk)+f(xk)(xk+1xk).0=f(x_k)+f'(x_k)(x_{k+1}-x_k).

于是

xk+1=xkf(xk)f(xk).x_{k+1}=x_k-\frac{f(x_k)}{f'(x_k)}.

f(x)=x22f(x)=x^2-2,这给出

xk+1=12(xk+2xk),x_{k+1}=\frac12\left(x_k+\frac{2}{x_k}\right),

也就是一种快速求 2\sqrt2 的迭代算法。

Wallis 的《Arithmetica Infinitorum》代表一种很 17 世纪的工作方式:把面积问题算术化,然后通过 analogy 和 interpolation 推广。

对整数 pp,有规律:

01xpdx=1p+1.\int_0^1 x^p\,dx=\frac{1}{p+1}.

Wallis 不满足于整数幂。他会问:如果 p=12p=\frac12 呢?公式是否还应该给出

01xdx=112+1=23?\int_0^1 \sqrt{x}\,dx=\frac{1}{\frac12+1}=\frac23?

今天我们可以用现代积分验证。但在当时,这类推断主要依靠表格、比例、插值和强烈的模式意识。

Wallis 的方法不够严格,却对 Newton 很关键。Newton 的 general binomial theorem 正是在这种把有限公式推广到分数指数、无限级数的气氛中出现的。

6. Newton:微积分作为 infinite series 的代数

Section titled “6. Newton:微积分作为 infinite series 的代数”

Newton 的微积分不是只会求导积分的规则表,而是一套操作 infinite series 的代数。

从 geometric series 开始:

11+t=1t+t2t3+,t<1.\frac{1}{1+t}=1-t+t^2-t^3+\cdots,\quad |t|<1.

两边从 00xx 积分,得到 Mercator logarithm series:

log(1+x)=xx22+x33x44+.\log(1+x)=x-\frac{x^2}{2}+\frac{x^3}{3}-\frac{x^4}{4}+\cdots.

这一步的意义很大。对数原本不是多项式函数,但现在它可以像无限多项式一样被计算。

Newton 还把 binomial theorem 推广到任意指数:

(1+x)p=1+px+p(p1)2!x2+p(p1)(p2)3!x3+.(1+x)^p=1+px+\frac{p(p-1)}{2!}x^2+\frac{p(p-1)(p-2)}{3!}x^3+\cdots.

pp 是正整数时,这个级数会停止;当 pp 是分数或负数时,它变成无限级数。于是 1+x\sqrt{1+x}1/(1+x)1/(1+x)arcsinx\arcsin x 等函数都进入了同一套计算语言。

例如

1+x=1+12x18x2+116x3,x<1.\sqrt{1+x}=1+\frac12x-\frac18x^2+\frac1{16}x^3-\cdots,\quad |x|<1.

x=0.04x=0.04,前三项就给出

1+0.020.0002=1.0198,1+0.02-0.0002=1.0198,

非常接近 1.04\sqrt{1.04}。这一步把“二项式公式”从有限代数公式改造成了近似计算工具,也自然通向下一讲的 power series。

7. Newton interpolation:从表格到函数

Section titled “7. Newton interpolation:从表格到函数”

Stillwell 反复提醒,早期微积分不只来自连续曲线,也来自天文表、数表和插值问题。Interpolation 的基本问题是:已知若干点的函数值,能否构造一个多项式来组织这些数据?

取三个点

(0,1),(1,2),(2,5).(0,1),\quad (1,2),\quad (2,5).

Newton interpolation 用“逐级差分”的形式写多项式。先看一阶差:

21=1,52=3.2-1=1,\quad 5-2=3.

再看二阶差:

31=2.3-1=2.

对应的二次多项式可以写成

P(x)=1+x+22x(x1)=x2+1.P(x)=1+x+\frac{2}{2}x(x-1)=x^2+1.

这里的重点不是背公式,而是看到一个思想:离散表值也可以被“局部变化”组织起来。有限差分在离散世界中扮演的角色,和导数在连续世界中的角色有相似之处。

8. Leibniz:notation 把方法变成可传播的规则

Section titled “8. Leibniz:notation 把方法变成可传播的规则”

Leibniz 的微积分入口不同。他把微小变化写成 dx,dydx,dy,把积分写成

ydx.\int y\,dx.

积分符号来自拉长的 SS,表示 sum。dydx\frac{dy}{dx} 则把变化率写成两个微小量的 quotient。

这种 notation 的力量在于,它会引导计算。例如 product rule 可以用 infinitesimal 的方式推出来:

d(uv)=(u+du)(v+dv)uv=udv+vdu+dudv.d(uv)=(u+du)(v+dv)-uv = u\,dv+v\,du+du\,dv.

忽略二阶小量 dudvdu\,dv,得到

d(uv)=udv+vdu.d(uv)=u\,dv+v\,du.

除以 dxdx,就是

d(uv)dx=udvdx+vdudx.\frac{d(uv)}{dx}=u\frac{dv}{dx}+v\frac{du}{dx}.

今天我们会给它严格证明,但 Leibniz notation 的优势已经很明显:它把复杂关系写成可以操作的符号。

Leibniz 还清楚地表达了 integration 和 differentiation 的互逆关系,也就是 fundamental theorem of calculus 的核心思想。

9. 严格性:不是本讲起点,但必须留下问题

Section titled “9. 严格性:不是本讲起点,但必须留下问题”

早期微积分的成功并不等于它从一开始就严格。Berkeley 后来批评 infinitesimals 是“消失量的鬼魂”,正是抓住了这个问题:它们到底是零还是非零?

19 世纪的 Cauchy、Weierstrass 等人用 limit 重新整理基础。20 世纪的 nonstandard analysis 又给 infinitesimals 一种新的严格解释。

所以这一讲的结论不是“早期数学家不严谨”,而是更准确的一点:数学史中常常先出现有效算法,再出现能完全解释它的基础语言。

一个矩形周长固定为 2020。设一边长为 xx,另一边长为 10x10-x,面积为

A(x)=x(10x).A(x)=x(10-x).

不用现代导数,先模仿 Fermat 的方法。比较 A(x+E)A(x+E)A(x)A(x)

A(x+E)=(x+E)(10xE).A(x+E)=(x+E)(10-x-E).

学生完成:

  1. 展开 A(x+E)A(x)A(x+E)-A(x)
  2. 去掉含 E2E^2 的高阶小量。
  3. 令剩下的一阶项为 00,求出 xx
  4. 再用现代导数 A(x)A'(x) 检查结果。

最后讨论:这个活动中,“极值点”为什么对应“一阶变化消失”?这比直接背 A(x)=0A'(x)=0 更接近 Fermat 的原始问题。

活动 B:从幂和到面积,并估计误差

Section titled “活动 B:从幂和到面积,并估计误差”

用右端点矩形求 y=x2y=x^2[0,1][0,1] 下方面积。先写出

An=1n[(1n)2+(2n)2++(nn)2].A_n=\frac{1}{n}\left[\left(\frac1n\right)^2+\left(\frac2n\right)^2+\cdots+\left(\frac nn\right)^2\right].

代入

12+22++n2=n(n+1)(2n+1)6.1^2+2^2+\cdots+n^2=\frac{n(n+1)(2n+1)}6.

学生完成:

  1. 化简 AnA_n
  2. An13A_n-\frac13
  3. 判断右端点矩形给出的是 overestimate 还是 underestimate。
  4. 解释为什么误差的主项大约是 12n\frac{1}{2n}

这样,积分不只是“取极限得到面积”,还变成一个可估计误差的近似过程。

f(x)=xf(x)=\sqrt{x} 估计 10.4\sqrt{10.4}

取基点 x=10x=10,令 dx=0.4dx=0.4。学生计算:

f(10)=1210,f'(10)=\frac{1}{2\sqrt{10}},

所以

10.410+0.4210.\sqrt{10.4}\approx \sqrt{10}+\frac{0.4}{2\sqrt{10}}.

然后让学生用计算器比较误差,并回答:

  • 这个近似为什么本质上是“用切线代替曲线”?
  • 如果把 10.410.4 换成 1414,同样的线性近似为什么会变差?
  • 这说明导数除了表示斜率,还表示什么?

要求学生从切线推导迭代公式,而不是直接给公式。

f(x)=x22.f(x)=x^2-2.

在当前近似 xkx_k 处作切线:

y=f(xk)+f(xk)(xxk).y=f(x_k)+f'(x_k)(x-x_k).

令切线与 xx-axis 相交,得到下一步近似:

xk+1=xkf(xk)f(xk)=12(xk+2xk).x_{k+1}=x_k-\frac{f(x_k)}{f'(x_k)} =\frac12\left(x_k+\frac{2}{x_k}\right).

x0=1.5x_0=1.5 开始迭代两次,比较 x1,x2x_1,x_22\sqrt2 的差距。

最后讨论:Newton method 为什么通常比二分法快?它又可能在什么情况下失败?

活动 E:Newton interpolation 与有限差分

Section titled “活动 E:Newton interpolation 与有限差分”

给学生三点

(0,1),(1,2),(2,5).(0,1),\quad (1,2),\quad (2,5).

先不告诉他们函数是什么,只要求完成差分表:

x012y125Δy13Δ2y2\begin{array}{c|ccc} x&0&1&2\\ \hline y&1&2&5\\ \Delta y&&1&3\\ \Delta^2 y&&&2 \end{array}

学生完成:

  1. 写出形如 P(x)=a+bx+cx(x1)P(x)=a+bx+cx(x-1) 的二次多项式。
  2. P(0)=1P(0)=1P(1)=2P(1)=2P(2)=5P(2)=5 解出 a,b,ca,b,c
  3. 验证 P(x)=x2+1P(x)=x^2+1
  4. 讨论:如果第四个数据点是 (3,11)(3,11),这个二次插值是否仍可信?

这个活动把 Wallis 的 interpolation、Newton 的数表传统和微积分中的“变化率”连起来。它也提醒学生:插值多项式可以组织数据,但不等于真实函数已经被确定。

  1. Fermat 的 adequality 和现代 derivative 都抓住“一阶变化”。它们的相同点和不同点分别是什么?
  2. 为什么局部极值点通常满足 f(x)=0f'(x)=0?这个结论在哪些情况下会失效,例如不可导点或端点?
  3. 导数作为 slope、rate of change、linear approximation 三种解释中,哪一种最能说明 Newton method?
  4. 早期微积分先有有效算法,后有严格基础。数学中什么时候可以接受这种顺序,什么时候不能?
  5. Wallis 从整数幂面积推广到分数幂面积,本质上是在做 interpolation。怎样区分有价值的模式识别和不可靠的猜测?
  6. Newton interpolation 中,有限差分和导数都在描述“变化”。它们相似在哪里,又根本不同在哪里?
  7. Newton 的 series 方法需要关注 convergence,Leibniz 的 differential notation 需要解释 infinitesimals。两种方法各自的数学风险是什么?
  8. 如果一个数学记号能引导正确计算,但它的严格解释后来才完成,这个记号算不算“可靠的数学工具”?
  • Cavalieri principle 与 indivisibles。
  • Fermat 的 adequality 方法与 modern derivative。
  • Wallis product for π\pi
  • Newton general binomial theorem。
  • Newton interpolation formula 与 finite differences。
  • Mercator logarithm series 与 logarithm tables。
  • Leibniz notation、differentials 与 fundamental theorem of calculus。
  • Berkeley 对 infinitesimals 的批评,以及 Cauchy/Weierstrass 的极限化。