34
当晚王青青青一行人先行回去了。次日上午,同行两辆车驶出度假村,沿着89号公路一路向南。太浩湖的蓝在后视镜里越来越远,越来越小,最后被一个弯道吞没了。
车里很安静。薛意开车,曲悠悠坐副驾。暖气开着,窗外是连绵的雪松。
薛意全程眉心微蹙,目光直直锁在前方,时不时看几眼后视镜,嘴唇抿成一条线。
曲悠悠偷偷看了她好几眼,没敢说话。
怎么了,这是?
出了山区后,车速加快。仪表盘上的数字稳定在85英里每小时左右,时不时的一不留神就能蹿上90。前面陶予之的特斯拉也开得飞快,两辆车在空旷的荒野公路上一前一后,像在赛车。
曲悠悠问AI,93英里每小时相当于国内的多少码。AI告诉她,150码。
嘶…
她寻思这后边也没人追啊。默默扯了扯安全带,确认系紧了。尬里尬气开始找话说。
内容未完,下一页继续阅读 "今天天气挺好哈。"
“…”
沉默一阵,薛意忽然想起来刚有个人说话了似的:"嗯。"
"路上没什么车。"
"嗯。"
"你…是不是不太高兴?"
"没有。“
“哦…“
“怎么了?"
"从上车起就皱着眉头。"
内容未完,下一页继续阅读 薛意眨了眨眼,单手碰碰眉心,好像这才意识到:"哦。我在想一个问题。"
"什么问题?"曲悠悠耳朵竖起来了。
"Transformer架构里attention机制的数学本质,能不能用微分几何的框架重新表达。陶予之昨晚给我看了一篇新的预印本,我觉得他们的证明路径有一个gap。"
"……"
曲悠悠傻了。
啊?
这啥?
每一个字好像都能明白,但连起来就是听不懂。
类似于,“我个人认为这个意大利面就应该拌42号混凝土。因为这个螺丝钉的长度,它很容易会直接影响到挖掘机的扭距,你往里砸的时候,一瞬间它就会产生大量的高能蛋白,俗称UFO,会严重影响经济的发展…“你懂你悠姐的意思吧?
曲悠悠感到一丝悲凉:“你说的,这是关于…什么的问题啊?“
内容未完,下一页继续阅读 薛意又眨了眨眼:“哦,AI相关的数学问题。”
叮。心里有个微波炉热好了饭似的,曲悠悠也眨了眨眼,被动触发尬笑技能:“害,你这么说我就懂了嘛哈哈哈…”
其实也不懂。
"所以你是在做数学题。"
"嗯。"
曲悠悠看着薛意严肃的侧脸,忽然有点想笑。觉着薛意这人挺好玩的。皱着眉头飙到150码,不是因为心情不好,是因为在脑子里解微分方程。说起话来也好像AI啊,还是不说人话的那种。
有点可Ai。
嘿嘿。
中午在一个公路旁小镇停下来吃饭。
下车走进路边一家美式餐馆,薛意和陶予之刚坐下就开始聊。
内容未完,下一页继续阅读 陶予之从包里掏出平板,翻出一篇论文递给薛意:"MIT那组的新预印本你看了吗?把self-attention写成球面上的iingparticlesystem,证了一个tokenclustering的收敛定理。证明本身挺漂亮的,Wasserstein梯度流那段构造得很g净。"
薛意接过来,眼睛扫了一眼公式。
"证明是挺漂亮的,但不能用。"她拿过一张餐巾纸,画了个球面示意图:"他们的Lipschitz假设在实际的softmax下根本不成立,高维空间里梯度直接blowup。你拿这个收敛率去calibrate真实的attentionmap,差两个数量级。"
陶予之笑了一下。她太熟悉薛意的思路了。纯数学家看一篇论文先看证明结构美不美,薛意看一篇论文先看结论能不能拿来赚钱。
"那你打算怎么修?"
"不修,换个框架。"薛意在餐巾纸上飞快地画了起来:"我在想Ricciflow。Clustering本质上就是曲率集中,Perelman处理奇点的那套surgery改一改,应该能给一个更tight的bound。"