OpenAI V.S. 微軟 Azure,GPT-4 模型性能比一比!

2023-09-04_11-54-52

(圖片來源: Differences: Azure OpenAI vs OpenAI – Examples )

前言

ChatGPT在2023年初橫空出世,帶來一股新的 AI 熱潮,無論是開發人員或是單純的使用者都搶著體驗大型語言模型其強大的性能能為我們所帶來的便利之處。

不過使用者應該也有遇過,在尖峰時刻時,ChatGPT的回應會變得非常緩慢或甚至直接顯示「系統異常無法回覆」,當這類情況發生時,用戶體驗都會大扣分。

當我們在建立服務時,模型的性能(performance)是一個重要的指標,幸好,OpenAI 和 Microsoft 都提供 API 服務來使用 OpenAI 的 GPT 模型。

使用微軟 Azure 的 OpenAI 服務,除了能獲得額外隱私控制外,是否還有甚麼其他的差異呢?

本篇文章就是要來比較看看使用Azure OpenAI Service 與 OpenAI 在性能上的差異,模型則是使用 GPT-4 的版本。

(這篇文章是參考 MC+A 網站中的 Comparing Performance of OpenAI GPT-4 and Microsoft Azure GPT-4 所撰寫,如果想知道更多細節歡迎閱讀原文內容。)

測試準則

以下是這次測試的一些標準:

  • 使用 OpenAI 的 Python SDK。版本 0.27.8。

  • 所有測試都用同一台機器進行,Windows 11 環境中的 WSL2 (Windows Subsystem for Linux)

  • 測量並考慮到每個端點的延遲,並將此因素排除從結果中排除

  • 使用 Azure OpenAI 澳洲區域 (Australia East)

  • 至於 OpenAI 不能選擇區域,採用他們提供的標準端點

  • 對每個提供商的 API 執行每個測試 10 次

  • 記錄每次測試運行的單個結果並匯總結果進行測量

  • 兩項服務的模型溫度都將設定為 0 (同個指令,每次輸出結果將相同)

注意:這不是一種經過驗證的科學測試方法。這個方法只適合作為操作指南參考,每個使用者的體驗可能有所不同。

測試方法

對每項服務進行多次測試,以衡量不同類型的提示和訊息串的性能:

圖片11

測試結果

  • 藍色/客製系統提示,技術人員,10則訊息
  • 橘色/客製系統提示,技術人員,1則訊息
  • 灰色/JSON提取和生成
  • 黃色/無系統提示,10則訊息
  • 青色/無系統提示,1則訊息

圖片4

如上圖顯示,Azure 和 OpenAI 之間的性能差異相當大。

平均來看,OpenAI的 GPT-4 API 比 Microsoft Azure 慢 2.8 倍

需要在回應中生成的令牌(token)數量會影響回應時間,如果一項服務提供了顯著更長的回應,那將導致更長的完成時間。

下圖顯示了每項服務每秒生成的平均令牌數。Azure 的性能比 OpenAI 高出 2.77 倍。

這裡值得注意的一點是,即使兩項服務的溫度都為 0,OpenAI 仍然在回應和生成的令牌數量上有些微不同,而 Azure 在每次回應時都更加一致(這點非常值得注意)。

圖片6

在進行所有結果的總合並比較後,具體的測試下來,發送的消息、指令、回應格式和長度的變化會有哪些影響呢?

圖片9

每秒生成的令牌最明顯的差異在「客製系統提示,技術人員,10則訊息」測試中,Azure 的每秒生成令牌的速率是 OpenAI 的 3.54 倍。

差異最小的則是在「無系統提示,1則訊息」測試中,Azure 的生成令牌速率是 OpenAI 的 2.03 倍。

本文並非旨在深入探討為什麼存在這樣的差異化,以及在不同的測試中為什麼可以看到不同的變化。

最終結果是,每項服務的完成時間存在是不一樣的,影響因素取決於長度、內容、回應請求等。

對細節感興趣的讀者,可以參考每項測試的總結果如下:

圖片10

結論

我們大概可以知道, OpenAI 和 Azure OpenAI 是很相似的產品,這兩者間一定存在著差異,不過性能的差異如此巨大還是令人感到非常驚訝。

對於任何企業希望內部導入 GPT-4 或其他 OpenAI 模型,或將其作為加值產品的一部分,從這個實驗可以得知,如果考慮到性能,那麼使用 Azure OpenAI Service 是更好選擇。

所有測試提示和結果都可以在這裡 gpt-4-performance-tests 找到。


You may also like...

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。