廣告
香港股市 已收市
  • 恒指

    17,763.03
    +16.12 (+0.09%)
     
  • 國指

    6,273.75
    -9.11 (-0.14%)
     
  • 上證綜指

    3,104.82
    -8.22 (-0.26%)
     
  • 道指

    38,256.17
    -129.92 (-0.34%)
     
  • 標普 500

    5,102.02
    -14.15 (-0.28%)
     
  • 納指

    15,924.32
    -58.76 (-0.37%)
     
  • Vix指數

    14.76
    +0.09 (+0.61%)
     
  • 富時100

    8,171.41
    +24.38 (+0.30%)
     
  • 紐約期油

    81.40
    -1.23 (-1.49%)
     
  • 金價

    2,310.70
    -47.00 (-1.99%)
     
  • 美元

    7.8209
    -0.0036 (-0.05%)
     
  • 人民幣

    0.9252
    +0.0016 (+0.17%)
     
  • 日圓

    0.0494
    -0.0004 (-0.72%)
     
  • 歐元

    8.3600
    -0.0281 (-0.33%)
     
  • Bitcoin

    62,955.66
    -677.18 (-1.06%)
     
  • CMC Crypto 200

    1,304.91
    -34.15 (-2.55%)
     

OpenAI發佈ChatGPT4.5正式版 擊敗Claude3重奪全球AI一哥寶座

根據 LMSYS Chatbot Arena 最新評比,全球最強 AI 寶座近日再度換人坐,兩個月前才遭 AI 新創公司 Anthropic 旗下 Claude3 Opus 超越的 OpenAI ChatGPT,再次用實力重奪 AI 一哥地位,在最新的 AI 基準測試中,OpenAI 幾天前剛發布的 GPT-4-Turbo-2024-04-09 版本,大幅超越 Claude3 Opus。

值得一提的是,這個版本不是普通測試版本,而是作為正式版本 GPT-4-Turbo 發布,雖然 GPT-4-Turbo 發布已久,但一直以「預覽版」的方式提供,此次首度發布正式版,足以看出該版本的份量,有不少網友甚至直接將其改名為 GPT-4.5-Turbo 了。

根據 OpenAI 介紹,GPT-4-Turbo-2024-04-09 版本在寫作、數學、邏輯推理以及程式設計等多個領域均有顯著進步,使用新版 GPT4 寫作會發現它的反應速度提升,溝通更為流暢,表達方式更趨於口語化。新版的寫作風格更貼近人類的自然語言,多了些人情味,少了點 AI 機器味。

就在 OpenAI 發表更新版本後,中國玩家透過 AI 工具站 BotGo 進行了 GPT-4-Turbo 體驗並發佈測評指出,在程式碼能力測試上,相較於 Claude 3 Opus 完全沒找到 bug 在哪,GPT-4-Turbo-2024-04-09 版本已經能夠發現 Bug 的問題,並且提供了修復的程式碼,修改後的程式碼也更為優質,而且除了 Bug 之外還提出了索引處理和效率方面的問題及建議,整體表現確實比 Claude3 更為優秀 。

廣告

解析上傳圖片方面,最新版的 GPT-4 則好像還不能解析上傳的圖片,可能還在調測當中,並在圖片問答方面還是不如 Claude-3 Opus。

此外,在讓 GPT-4 講述 Sora 技術原理時,GPT-4 跟 Gemini 的表現都非常優秀,Claude-3 則有些部分出現錯誤,像是 Sora 是生成式的,不是檢索式的。Gemini 將 Sora 所採用的捲積網路技術類比於樂高的積木結構,確實更容易理解,GPT-4 則在專業上更勝一籌,也許是因為 GPT-4 知識庫已更新到今年 4 月,Sora 則是在 2 月剛發布。

行銷能力方面,結果發現更新版的 GPT-4 正式版還不能支援文件分析,跟官方公佈資訊一致,要進行文檔分析仍要有請最強大的 GPT4 全能版本。

最後,在寫作能力測試方面,由於每個人的看法都可能不一樣,測驗結果可能見仁見智,中國玩家給予的評論則是 Claude-3 寫的文章既較口語化且富有感染力,內容也有一定的深度,GPT-4 和 Gemini Pro 則差不多,GPT-4 比較專業,Gemini Pro 比較流暢,速度也快一些。

此前,LMSYS 平台曾專門做過測驗對比,GPT4 的英文寫作更強,而 Claude3 的中文寫作能力更勝一籌。LMSYS 是一個專門評測大型語言模型 (LLM) 性能的平台,透過各種客觀指標與人工評估,為業界提供最新、最全面的 LLM 排行榜。

更多鉅亨報導