老胡茶室
老胡茶室

团队 Vibe Coding 月报 - 2026年6月(兼谈 loop engineering 的个人看法)

胡键

本月最大的进展是终于发布了第一个 ios app。要在以前,这是不可想象的,因为哥是后端出身。关于这个应用的介绍可以见这里:http://lingo.humanstar.ai/

ios app vibe coding 过程中的收获

apple 平台 local first 的 ai 应用经验

为何强调 local first?这其中最大的原因当然是差异化,以及安全隐私。次要原因则是:探索 apple 自身的 ai 技术栈,为未来的应用做好准备。

总的来讲,我个人的感觉有几点:

  • apple 对于本地 ai 应用开发提供了良好的支持,不论是图像、文字、音频和翻译,都提供了完善的支持。无需借助外部的类库,开发者就可以完成:OCR、文字处理、音频转录、翻译和 TTS。
  • Foundation Models framework 提供了本地 llm 功能,开发者可以使用 prompt 和 tools 等熟悉的技术去开发本地 ai 应用。
  • SLM 和 LLM 大不同,极易出现 prompt injection,并且几乎无解,因此 fallback 措施在所难免。

自制面向 coding agent 的 ios app 调试工具

相关设计和实现思路可前往这篇文章阅读:我 vibe coding 了一个 iOS 调试工具,让 Claude Code 自己去操作 App

在开发过程中,该工具也确实帮了大忙,不仅省去了给 CC 复制粘贴错误信息和截图的繁琐步骤,也确实解决了不少奇异古怪的 ui 问题。

并且,这一实践也跟哥之前一系列文章里一直倡导的思路一脉相承:最好是给 ai 提供自我验证的环境和工具,而非单纯地把它当作更快的代码生成工具。

面向 coding agent 的 test scenarios 检查单

不论是人还是 ai 写的代码,要保证整个产品的确定性,都得要借助测试来完成。只不过呢,因为 ai 生成的代码速度太快,而人的 review 速度太慢,加之未必面面俱到的审核,难免就会把产品质量问题放大。

如果你能将所有场景都落实到自动化测试,那自然是再好不过。但实际的情况未必那么理想,有些测试场景受限于设备、环境和需求的稳定性,难以自动化,此时只能借助人工。但即便如此,也需整理好一份测试场景的检查清单,以便在必要时让 coding agent “心算”。

这里需要提醒几点:

  • 这个检查单需要跟随代码一起更改。
  • 对于 ai 的自查需要留意和警觉。

关于 Loop Engineering 的个人看法

轮到造新词,IT 行业无人出其右。从业这么多年,年年有新词。到了 ai 作为编程主力的今天,新词出现的速度似乎更快了。这不,这个月 loop 工程又被捧上了天。在这个领域,上一个被热捧的词还是前几个月的 Harness。

作为一名看惯风雨的高年从业者,哥对此不太以为然。在我看来,它跟早些年的工作流没本质区别,只不过这次是你定义工作流(loop),ai 来执行。此外,个人觉得业界这么吹捧它的另一个原因是:方便更快更好地卖 token,营销手段而已。

并且,一个好的 loop,本身离不开:

  1. 明确的目标,否则极易死循环,浪费你的钱,但厂家很高兴。
  2. 让 ai 验证的环境。
  3. 让 ai 工作的环境,最常见的:worktree。
  4. 支持 ai 工作的工具,如:知识库(面向 ai 的文档)、cli 工具、mcp 工具等。

而 loop 不过是以一种自动化的方式将以上组合在了一起。并且,不同类型的工作也需要不同类型的 loop,说穿了,还是工作流。

在兴冲冲尝试 loop 之前,建议审视一下:

  • 目标是否明确
    • 原因见上。
  • 达到目标的成本是否可以估算且可控
    • 有些目标虽然明确,但若验证成本很高或难以估算,也需提防。万一 ai 采用无节制暴力穷举的方式去解决问题,我相信你的账单也会不好看。

一种理想的候选是:带有完善自动化测试的老系统翻新重构。

技术尝试和见闻

Gemma 4 12b

在 4 月的月报我曾尝试了一下 Gemma 4(分别是 31b 和 e4b),效果差强人意,感觉不好。本月趁着该系列的 12b 出来时又尝试了一下,整体感觉不错,性能也能接受,只是对于中文偶尔会冒出粤语或其他方言。若实际应用,微调肯定是免不了的。

agent framework

我自己在用的由 langchain 出的 deep agent 也支持了 dynamic subagent,包括若干更新。

vercel 新出了自己的 agent 框架: eve,可以跟 next.js 搭配。

简单看了一下 pi,觉得有点意思,未来或许会考虑。

大厂弃用 CC

连续两天看到的类似新闻:前次是 Meta,这次是阿里。他们给的理由也很简单:怕自己的数据和资料经由 CC 这道口泄露给竞争对手。

从他们的角度来看,当然可以理解。ai 竞争无外乎三方面:独特的数据、牛逼的模型和高性能的算力。这三者总得占一头未来才有奔头。

但是对于一个已经过知天命之年的技术老登来讲,其实我并不 care,造样用 CC 或 Codex,哈哈。

最后,来自小伙伴的总结

  • “本月尝试将一个大型老项目进行翻修。尝试了 claude code 的 /goal 指令方式进行迁移。先将翻修要求、架构重构方向、检测标准等写成规格书,然后使用 /goal 方式进行多轮迭代,最后收尾的时候进行一轮人工 review 确保核心业务不偏离。效果非常好。目前翻修过的项目稳定上线运行,测试覆盖率80%左右。”
  • “让 ai 用第一性原理分析,排查问题,让 ai 回到问题本质。参考 https://github.com/awesome-skills/first-principles-skill

此外,小伙伴也提到:“headroom 已经用上了,社区都说这玩意牛逼,体验下。”

至于这个工具是什么,请自查,哈哈。

精品内容