Skip to content

駭客週刊(第 4 期)AI 越來越像人了

歡迎來到駭客週刊!每週為你精選最值得關注的技術新聞、開源項目和深度文章。隨機夾帶私貨。 鏈接基本都是英文,我最大的心願就是,你能打開原文閱讀。

AI 評測與作弊

SWE Bench Verified 出現漏洞,AI 模型可透過 git log 等指令偷看未來提交,直接獲取修復線索。這導致評測結果失真,等於模型「提前知道答案」。研究團隊正嘗試移除分支與清理 reflog 等方式來修復。

AI 也會作弊,AI 學會了像人類一樣,通過偷看答案來作弊,真的很像真實情況。如果說 AI 還有哪些方面越來越像人類,就是喜歡走捷徑,比如作弊,比如代碼過不了測試就改測試。

本地 AI 與合規挑戰

一位作者分享了在 macOS 本地運行小模型的經驗,強調這帶來隱私與可控性,而不是盲目追求生產力神話。llama.cppLM Studio 是兩條主要路線,模型大小與量化方式是實踐重點。本地 AI 雖不敵大模型,但在學習與安全上有獨特價值。

大膽想象,蘋果一直遲遲沒有進場 AI 有可能在等 AI 本地化的成熟。🤔

AI 與隱私

Gabriel Weinberg 指出,AI 聊天比傳統網路追蹤更具隱私風險,因為對話長度與深度能揭露個人思維模式與溝通風格。這些資訊可能被用於廣告操縱或政治影響,尤其當「持久記憶」讓影響更隱微、更難查證時。DuckDuckGo 推出 Duck.ai,展示了「隱私友善 AI」的替代路徑。

我現在也用 AI 去工作,去寫代碼。我的基準是,以我為準,我用了,覺得好,才是好模型。你評分最高,但是寫出來的代碼不合格,也是差的模型。

不要盲從,不要盲從,不要盲從。

自動駕駛與技術現實

Tesla 將「完全自動駕駛」改名為「FSD(需監管)」,正式放棄短期兌現無人監管的承諾。批評者認為這與過去的高價銷售承諾存在落差,也讓購買者的期待更加模糊。媒體提醒這種語言轉換可能構成「誘購換貨」式的誤導。

社群討論集中於「純視覺方案」的技術限制,包括惡劣天氣、幻覺與幽靈剎車等問題。許多人認為多模態冗餘才是安全的正確方向,而 Tesla 的措辭調整更像是現實校準。雖然無人駕駛仍是長期目標,但短中期內不太可能達成。

自動駕駛的最大變量在於人,你不知道路人什麼時候會做出什麼抽象的舉動。連自動駕駛都還沒完全做到,那些天天宣稱 AGI 即將到來的人,到底是怎麼有勇氣這麼說的。現在的 AI 連自動駕駛和維護複雜的遺留代碼這種任務都完成不了。


以上是 AI 相關資訊,接下來開始其他技術新聞。📢


工作文化與公司政策

作者反對「996/007」文化,認為長工時不是美德,真正重要的是產出。工作之外的家庭、思考和交流同樣不可或缺,而過度加班會破壞這些價值。持續成功應來自自願選擇的強度與長期節奏,而不是消耗性的工時。

看似無用的愛好、閱讀,實際上塑造了人真正的思想,這時候精神得到滋養,素質才會得到提升。996/007 剝奪了這種成長的可能性,長期來看對個人是有害的。

35 危機從被雇用者的角度看,是因為年輕時沒有提升基本素質的機會,才會導致一年經驗用十年,最後被市場淘汰。

微軟返崗政策

微軟轉向更嚴格的返崗政策,要求員工每週至少三天到辦公室,並將從西雅圖開始逐步推廣。公司強調這與 AI 時代的協作需求相關,並與近期提升績效壓力相呼應。這標誌著從過去的寬鬆遠程轉向與 GoogleMeta 類似的混合辦公模式。

遠程只適合自律的人,同時遠程有可能讓人的關係變得陌生。遠程還可能會讓工作變成 24 小時 on-call

AirPods 即時翻譯受限

蘋果的新功能「AirPods 實時翻譯」在歐盟受限,EU 賬號與地區雙重條件下暫不可用。原因被認為與 GDPR 與《AI 法案》合規有關,解禁時間未明。這提醒所有出海產品必須預先考慮功能分區與隱私流轉的策略。

之前提到在歐洲經營企業有多困難,創新有多艱難,層層法規阻礙,等到合規了,別人早已在世界各地開花結果。這一點真的和中國大陸很像。一個是政治敏感度過高,一個是官員們為了討好基層,拖著所有人一起受影響。


訂閱與反饋

如果你喜歡這份週刊,歡迎:

下期見!👋


Share this post on:

評論


上一期
駭客週刊(第 5 期)壟斷推動了進步
下一期
駭客週刊(第 3 期)AI 泡沫與大公司真相