压缩就是你所需要的:衡量数学进步
“良好的抽象”一词通常被视为品味。数学家通常可以感觉到定义何时正确,但这种感觉很难实施。
这篇文章的有用举措是将数学进步视为压缩。新的抽象不仅仅是优雅。它应该使证明工作区域更短、更可重用或更容易维护。
这将品味变成了可测量的工程信号。
压缩测试
对于候选抽象,询问:
After adding it, how many proofs get shorter?
How many repeated proof patterns disappear?
How many downstream theorems become easier to prove?
Does it become a high-reuse dependency node?
Does it reduce proof depth or wrapped proof length?
Does it make future maintenance simpler?
关键不是任何单一指标。关键是有价值的抽象应该在证明库中留下痕迹。它应该将工作压缩到超出引入它的定理之外。
为什么这是一个很好的 AI 问题
对于围绕 Lean 或类似形式化库工作的 AI 系统来说,这是一项很自然的任务。
团队不需要模型就能在第一天就成为完全自主的数学家。第一个有用的系统可以是抽象推荐器:
- 在库中搜索重复的证明术语、策略模式和局部引理。
- 提出排除重复的候选定义或引理。
- 使用候选抽象重写一批现有证明。
- 使用 Lean 验证所有重写后的证明。
- 根据压缩、重用、破坏和命名成本对候选进行排名。
- 只将最好的候选人发送给人类维护人员。
这将维护人员的工作从“手动发现每个抽象”转变为“审查证据充分的候选者”。
贡献的三个级别
我会将 AI 用于形式数学的工作分为三层。
| 层 | 系统的作用 | 为什么这很重要 |
|---|---|---|
| 证明生成 | 在固定库中证明一个定理 | 重要,但很容易变成基准追逐 |
| 库感知工程 | 建议能缩短许多证明的引理 | 开始塑造数学代码库 |
| 抽象发现 | 寻找共享结构并提出新概念 | 最接近数学味道的作品 |
第二层和第三层是长期杠杆的有趣层。它们不仅仅是解决今天的定理。它们是为了让明天的定理变得更容易。
维护角度
压缩也可能失败。新的抽象可能会缩短证明,但会使名称变得混乱。它可能会成为一种脆弱的依赖。它可能隐藏应保持明确的结构。它可能会对一个领域有所帮助,同时使另一个领域更难理解。
所以我不会仅仅通过长度缩减来对候选人进行排名。有用的分数应包括:
compression
reuse
proof stability
dependency centrality
name clarity
review cost
future extensibility
这个系统看起来不该像定理证明者,而更像库工程师。
我的收获
这里最深刻的想法是抽象有证据。
如果一个定义确实很好,它应该压缩数学工作的邻域。这为 AI 系统提供了立足点:提出、重写、验证、测量,然后要求人类用最有力的证据来判断候选人。
对我来说,最有前途的研究方向不是“生成更多 Lean 证明”,而是“维护一个证明库,让接下来的一百个证明变得更简单”。