Mostanában kipróbáltam, milyen nagy nyelvi modelleket futtatni helyben, mint például a Llama-2, Mistral és Mixtral. Ez aztán rávilágított, hogy ezek az óriási modellek milyen brutális erőforrás-igényűek memória és GPU teljesítmény terén!
De a megfelelő Mac géppel simán megoldható, hogy magunk is kihasználjuk ezt a lehengerlő mesterséges intelligenciát. Különböző felállásokat próbáltam ki, szóval részletesen elmagyarázom, melyik konfiguráció működött a legjobban az egyes modellméreteknél.
Először is elárulom, melyik az a csúcsmodellje az Apple szilícium chipeknek, ami a legjobb választás, ha helyben szeretnénk nagy nyelvi modelleket futtatni.
Amikor az ár-érték arányt nézzük, a helyi LLM inference legjobb megoldása a 2022-es Apple Mac Studio az M1 Ultra chippel. Ez a konfiguráció 48 GPU magot, 64 vagy 96 GB RAM-ot és lenyűgöző 800 GB/s sávszélességet kínál.
Masszív architektúrája tökéletesen alkalmas a 7-70 milliárd paraméteres nagy nyelvi modellek hatékony futtatására. Az Apple szilícium egyesített memóriája felülmúlja a hagyományos PC-k, amelyek csak CPU-ra és RAM-ra hagyatkoznak, teljesítményét az inference terén, sokkal magasabb memóriasávszélességet biztosítva. Ez a előny kulcsfontosságú a nagy modellek hatékony feldolgozásához, ahol a hagyományos PC-k rövid pálcát húznak.
Azok számára, akik a mobilitást részesítik előnyben, és nem tudnak asztali gépet, mint a Mac Studio választani, a legjobb laptopváltozat a nagy nyelvi modellek futtatásához az M2 Max chipen alapuló MacBook Pro 64 GB RAM-mal. Ez a konfiguráció a hordozhatóság és az erő tökéletes kombinációját nyújtja.
Tartalom
Local AI futtatása esetén az ajánlott MAC gépek és paraméterek:
Model Mérete (Paraméterek száma) | Ajánlott Mac Modell | GPU Magok Száma | Memória (RAM) | Ajánlott Tárhely (GB) |
---|---|---|---|---|
7B | Mac Mini / MacBook Air M2 | 8 | 16 GB | 256 |
13B | MacBook Pro M1 Pro | 16 | 16 GB | 512 |
33B – 46B (Mixtral 8x7B) | 16” M2 Pro MacBook Pro M1 Max | 24 | 64 GB | 1TB |
70B+ | Mac Studio M1 Ultra / M2 Ultra | 48 / 76 | 64 GB / 192 GB | 2TB+ |
Táblázatban a jelenleg (2024.03) kapható gépek
Bővebben kifejtve az egyes modellméretek memóriaigényeit:
Mielőtt részletesen megvizsgálnánk a különböző Mac modelleket, tisztázzuk, mekkora memóriakapacitásra lesz szükség a különböző méretű nyelvi modellek esetén 4 bites kvantálás mellett.
A legkisebb, 7 milliárd paraméteres modellek futtatásához már 5 GB egyesített RAM elegendő lehet. Ezek a kompaktabb mesterséges intelligenciák viszonylag szerény erőforrásigényűek, akár egy alacsonyabb kategóriás MacBook Airrel is megbirkózhatunk velük.
Ahogy növekszik a komplexitás, úgy nő a memóriaigény is. A közepes, 13 milliárd paraméterrel operáló modellek már 8 GB RAM-ot igényelnek a megfelelő működéshez. Ezekhez egy erősebb, legalább M1 chipes MacBook Pro vagy Mac mini javasolt.
A nagy, 33 milliárd paraméteres nyelvi modellek viszont már komoly erőforrásokat emésztenek fel. Futtatásukhoz minimum 20 GB egyesített memóriára van szükség. Itt már egy felsőkategóriás, M1 Max vagy M2 Pro processzoros MacBook Pro a minimumkövetelmény.
A Mixtral LLM, amely gyakorlatilag 8 darab 7 milliárdos modell összekapcsolásával jön létre, önmagában 46 milliárd paraméterrel dolgozik. Ennek gördülékeny használatához legalább 26 GB RAM-ra van szükség.
A igazán brutális, 65-70 milliárd paraméteres gigamodellek azonban a csúcsok csúcsát képviselik. Az ilyen hatalmas mesterséges intelligenciák zökkenőmentes futtatásához minimálisan 40-41 GB egyesített memóriára van szükség egy Mac gépen.
Ezekhez a lélegzetelállító méretű modellekhez már csak a legerősebb, Mac Studio gépek M1 Ultra vagy M2 Ultra chipjeivel felszerelve érdemes nyúlni, legalább 64 GB, de akár 128 GB egyesített memóriával is telepíthetők a maximális teljesítmény elérése érdekében.
Az Apple szilícium (M1/M2/M3) chipek hogyan teljesítenek a nagy nyelvi modellek futtatásában?
A kulcsfontosságú előnyük az egyesített memória architektúra, ahol a RAM megosztott a CPU és GPU között. Ez sokkal hatékonyabb a nagyméretű nyelvi modellek futtatására, mint a hagyományos PC-k kialakítása, ahol csak CPU és RAM van, de nincs dedikált nagy teljesítményű GPU.
Érdemes figyelembe venni, hogy az egyesített memóriának körülbelül csak a 70-75%-át lehet felhasználni a GPU által felgyorsított inference feladatokra. Vannak azonban módszerek arra, hogy ezt a korlátot megkerüljük és az teljes memóriát kihasználhassuk GPU inferenciához.
A következő táblázat bemutatja, hogy az Apple különböző szilícium M chipjei hogyan skáláznak nagy nyelvű modellek futtatásában és promptfeldolgozási sebességben. Megtekinthetjük az eltérő generációk teljesítményét ezeken a területeken.
Chip generáció | 8-bit PP | 8-bit TG | 4-bit PP | 4-bit TG | Price | Price/TG |
---|---|---|---|---|---|---|
M2 Pro (16) M1 Pro (16) |
288.46 270.37 |
22.7 22.34 |
294.24 266.25 |
37.87 36.41 |
$1,800.00 (32GB) $1,639.00 (32GB) |
$47.61 $45.15 |
+6.69% | +1.61% | +10.51% | +4.01% | |||
M2 Max (38) M1 Max (32) |
677.91 537.37 |
41.83 40.2 |
671.31 530.06 |
65.95 61.19 |
$3,139.00 (64GB) $2,899.00 (64GB) |
$47.59 $47.37 |
+26.15% | +4.05% | +26.65% | +7.78% | |||
M2 Ultra (60) M1 Ultra (48) |
1003.16 783.45 |
62.14 55.69 |
1013.81 772.24 |
88.64 74.93 |
$3,999.00 (64GB) $3,059.00 (64GB) |
$45.11 $40.82 |
+28.04% | +11.58% | +31.28% | +18.29% | |||
M2 Ultra (76) M2 Max (38) |
1248.59 677.91 |
66.64 41.83 |
1238.48 671.31 |
94.27 65.95 |
$4,999.00 (64GB) $3,139.00 (64GB) |
$53.02 $48.41 |
+84.24% | +59.47% | +84.53% | +43.06% | |||
M2 Ultra (76) M2 Ultra (60) |
1248.59 1003.16 |
66.64 62.14 |
1238.48 1013.81 |
94.27 88.64 |
$4,999.00 (64GB) $3,999.00 (64GB) |
$53.02 $45.11 |
+24.43% | +7.23% | +22.19% | +6.33% | |||
M3 Pro (18) M2 Pro (19) |
344.66 344.50 |
17.53 23.01 |
341.67 341.19 |
30.74 38.86 |
$2,799.00 (32GB) $2,400.00 (32GB) |
$91.05 $61.76 |
0.004% | -31.26% | -0.014% | -26.41% | |||
M3 Max (40) M2 Max (38) |
757.64 677.91 |
42.75 41.83 |
759.7 671.31 |
66.31 65.95 |
$3,899.00 (64GB) $3,139.00 (64GB) |
$58.79 $47.59 |
+11.76% | +2.20% | +13.17% | +0.55% |
PP - gyors feldolgozás
TG - token generálás
Ha a promptfeldolgozási sebességet (PP) nézzük, akkor hasonló trendeket látunk, mint a tokengenerálási sebességnél (TG) - a GPU magok számának növekedésével a PP is javul. Azonban a magasabb magszámoknál a promptfeldolgozás tempójának növekedése intenzívebb, mint a tokengenerálásé.
Ez arra enged következtetni, hogy míg mindkét metrika profitál a több GPU magból, a promptfeldolgozás érzékenyebben és határozottabban reagál a magok számának emelkedésére, mint a tokengenerálás.
Összességében tehát mind a tokengenerálás, mind a promptfeldolgozás sebessége nő a GPU magok számával, de a promptfeldolgozás teljesítménye szorosabban korrelál a rendelkezésre álló magok mennyiségével. A több mag nagyobb hatással van a promptfeldolgozás mint a tokengenerálás gyorsaságára.
Íme néhány fontos tudnivaló a Mac és az RTX 4090, illetve 3090 GPU-k használhatóságáról mesterséges intelligencia, nagyméretű nyelvi modellek futtatása terén:
Mac vs RTX 4090
- Az RTX 4090-es GPU-val szerelt PC felülmúlja a Mac Studio teljesítményét tokenek generálásában és inference sebességben, akár kétszeres különbség is lehet a 4090 javára.
- Viszont a 4090-es rendszer sokkal drágább, kb. 4500 dollár ára van két GPU-nak és komplexebb az összeszerelése.
- A Mac Studio M1 Ultra egyesített memóriája (akár 192GB) lehetővé teszi több modell párhuzamos futtatását.
- A Mac kb. 3100 dollárba kerül új állapotban, de kaphatók olcsóbban is felújított vagy használt modellek 2500 dollár körül.
- A 4090-es gépre lehet modelleket is tanítani, a Mac Studión ez nem lehetséges.
Mac vs RTX 3090
- Az RTX 3090 egy kicsit lassabb, mint a 4090, de még mindig gyorsabb inference és promptfeldolgozási sebességet nyújt, mint az M1/M2 Ultra.
- Két használt 3090-es GPU-val felszerelt PC ára kb. 2900 dollár, ami hasonló egy felújított 64GB-os M1 Ultra Mac Studio árához.
- A régebbi 3090-as rendszerek energiafogyasztása és zajszintje azonban magasabb, mint a Mac Studióé.
Tehát a Mac ideális azok számára, akik költséghatékony, csendes és felhasználóbarát megoldást keresnek, míg a GPU-s PC felülmúlja a teljesítményét, de drágább és bonyolultabb rendszer. A végső választás az egyéni igényektől és prioritásoktól függ.
Mac a 7B és 13B paraméteres modell esetében
A kisebb, 7 milliárd paraméteres modellek esetében már egy olcsóbb Mac Mini vagy M2 chipes MacBook Air 16 GB egyesített memóriával is megfelelő teljesítményt nyújt. A 8 magos GPU bőven elég erőt ad a gyors promptfeldolgozáshoz.
Ha azonban egészen biztos akarsz lenni a dolgodban, jobb egy erősebb MacBook Prót választani M1 Pro chipsettel és 16 GB RAM-mal. Ez a konfiguráció tökéletesen boldogul majd mind a 7 milliárdos, mind a nagyobb, 13 milliárd paraméteres modellekkel is.
Van még egy alternatíva, mégpedig a Mac Studio az M1 Ultra processzorral, szintén 16 GB egyesített memóriával. Ez a kompakt asztali gép is remekül elvégzi majd a feladatot ezekkel a közepes méretű nyelvmodellekkel.
Szóval a legkisebb, 7 milliárdos LLM-ekhez elég lehet egy olcsóbb MacBook Air vagy Mini is. A 13 milliárdos tartományban viszont már érdemes egy kicsit felskálázni, és legalább egy MacBook Pro M1 Prót vagy akár egy kompakt Mac Studio M1 Ultrát beszerezni a zökkenőmentes teljesítmény érdekében.
Mac a 33B-46B (Mixtral 8x7b) paramétermodell esetében
Amikor a nagyobb, 33-46 milliárd paraméteres modellek tartományába léptem, fel kellett skáláznom a felszereltséget. Ehhez egy 16"-os M2 Pro MacBook Prót vettem be játékba M1 Max chipsettel. A 24 magos GPU és a 64 GB-os (200 GB/s sávszélesség) memória tűnt az ideális felállásnak a villámgyors válaszidők eléréséhez.
Az M1, M2 vagy akár az újabb M3 Pro chipes MacBook Pro modellek szintén választható opciók lehetnek ezen a modellméreten. Azonban ezek a hordozható gépek maximum 32 GB RAM-mal rendelkeznek, ami korlátot jelent.
Ez a 32 GB-os memóriakorlát miatt csak 4 bites kvantálású modelleket tudnánk futtatni rajtuk. Ráadásul az Apple szilícium chipjei csupán a teljes RAM körülbelül 65%-át tudják dedikálni a GPU számára 32 GB memória mellett.
Így ezekkel a 32 GB-os MacBook felállásokkal sajnos nem tudnánk futtatni a 4 bites kvantálású, 46 milliárd paraméteres Mixtral 8x7B modellt, amely gyakorlatilag 8 darab 7 milliárdos rész-LLM összekapcsolásával jön létre.
Mac a 70B + paraméteres modellhez
Amikor azt szeretnéd, hogy a Mac-ed igazán megdolgozzon az óriási, 65-70 milliárd paraméterű nyelvi modellekkel, akkor a Mac Studio jön a képbe. Kipróbáltam mind az M1 Ultra, mind az M2 Ultra modelleket. Az M2 Ultra esetében a hihetetlen 76 magos GPU és a 192 GB-os memória még a 180 milliárd paraméterű modelleket is simán futtatja. Azonban a 2022-es Mac Studio, M1 Ultra chippel és 64 GB RAM-mal, az ideális választás e méretű nagy nyelvi modellekhez.
Ha tehát játékból vagy haszonból szeretnél hatalmas modellekkel foglalkozni, szerezd be a Mac Studio Ultrát vagy egy maximálisan felszerelt MacBook Prot.
Ezt kiegészítve, hasznos lehet tudni, hogy nagy teljesítményű számítógépek kiválasztásánál nem csak a hardver specifikációkat kell figyelembe venni, hanem azt is, hogy milyen feladatokra szeretnéd használni. Nagy nyelvi modellek futtatása esetén különösen fontos a magas GPU teljesítmény és a bőséges memória. Ezen felül érdemes figyelni a rendszer ökoszisztémájára és a szoftverek kompatibilitására is, hogy a munkafolyamatok zökkenőmentesek legyenek.
———
Forrás: https://www.hardware-corner.net/guides/mac-for-large-language-models/
A cikket írta: Allan Witt