Apple udostępnia modele językowe OpenELM do pracy bez Internetu

Apple wprowadziło nową serię modeli językowych OpenELM zaprojektowanych do pracy lokalnej na urządzeniach bez konieczności łączenia się z usługami w chmurze. Seria obejmuje osiem modeli o różnych rozmiarach i typach, które mają od 270 milionów do 3 miliardów parametrów.

Modele te zostały przeszkolone na ogromnych publicznych zbiorach danych, w tym 1,8 biliona tokenów z zasobów takich jak Reddit, Wikipedia i arXiv.org. Dzięki wysokiemu stopniowi optymalizacji, modele OpenELM są w stanie działać na konwencjonalnych laptopach, a nawet niektórych smartfonach, co zostało zademonstrowane na urządzeniach takich jak komputery PC z procesorami Intel i9 i RTX 4090 oraz MacBook Pro z układem M2 Max.

Jedna z wybranych opcji, model z 450 milionami parametrów, z instrukcjami, wykazała doskonałe wyniki. Model OpenELM-1.1B z 1,1 miliardem parametrów okazał się o 2,36% bardziej wydajny niż podobny model GPT, OLMo, przy wykorzystaniu połowy danych treningowych.

W teście porównawczym ARC-C, zaprojektowanym do testowania wiedzy i logicznego rozumowania, wstępnie wytrenowana wersja OpenELM-3B wykazała dokładność na poziomie 42,24%. W innych testach, takich jak MMLU i HellaSwag, model uzyskał odpowiednio 26,76% i 73,28%.

Apple opublikowało również kod źródłowy OpenELM na platformie Hugging Face na otwartej licencji, zapewniając dostęp do wytrenowanych modeli, testów porównawczych i instrukcji pracy z tymi modelami. Firma ostrzega jednak, że modele mogą generować nieprawidłowe, złośliwe lub niedopuszczalne odpowiedzi ze względu na brak gwarancji bezpieczeństwa.

Source VentureBeat
You might also like
Comments
Loading...

Ta strona używa plików cookie, aby poprawić komfort korzystania z niej. Zakładamy, że nie masz nic przeciwko temu, ale możesz zrezygnować, jeśli chcesz. Akceptuj Czytaj więcej