सन्दर्भ:
: भारत के जनरेटिव AI क्षेत्र में उभरती हुई कंपनी Sarvam AI ने एक नया भाषा मॉडल Sarvam-1 लॉन्च किया है जिसे खास तौर पर भारतीय भाषाओं के लिए प्रशिक्षित किया गया है।
Sarvam-1 के बारें में:
: Sarvam-1 नामक नया एआई मॉडल ओपन-सोर्स है और अंग्रेजी के अलावा बंगाली, गुजराती, हिंदी, कन्नड़, मलयालम, मराठी, उड़िया, पंजाबी, तमिल और तेलुगु सहित दस भारतीय भाषाओं का समर्थन करता है।
: बेंगलुरु स्थित इस कंपनी ने इस साल अगस्त में Sarvam 2B नामक अपना पहला आधारभूत AI मॉडल लॉन्च किया था।
: हाल ही में जारी किए गए AI मॉडल को 2 बिलियन मापदंडों के साथ विकसित किया गया है।
: पैरामीटर काउंट का उपयोग अक्सर AI मॉडल की जटिलता को इंगित करने और इनपुट को आउटपुट में बदलने की AI मॉडल की क्षमता निर्धारित करने के लिए किया जाता है।
: संदर्भ के लिए, Microsoft का Phi-3 Mini 3.8 बिलियन मापदंडों को मापता है।
: Sarvam-1 और Phi-3 मिनी जैसे AI मॉडल छोटे भाषा मॉडल (SLM) की श्रेणी में आते हैं, जिनके पैरामीटर दस बिलियन से कम होते हैं, जबकि OpenAI के GPT-4 जैसे बड़े भाषा मॉडल (LLM) में एक ट्रिलियन से अधिक पैरामीटर होते हैं।
: विशेष रूप से, Sarvam AI ने कहा कि इसका नवीनतम AI मॉडल डेटा इंफ्रास्ट्रक्चर कंपनी Yotta द्वारा आपूर्ति की गई 1,024 ग्राफिक्स प्रोसेसिंग यूनिट्स (GPU) द्वारा संचालित है और NVIDIA के NeMo फ्रेमवर्क के साथ प्रशिक्षित है।
: Sarvam-1 को भी विशिष्ट रूप से प्रशिक्षित किया गया है।
: कंपनी का कहना है कि, “भारतीय भाषाओं के लिए प्रभावी भाषा मॉडल विकसित करने में एक प्रमुख चुनौती उच्च गुणवत्ता वाले प्रशिक्षण डेटा की कमी रही है, और मौजूदा डेटासेट में अक्सर विश्व स्तरीय मॉडल के प्रशिक्षण के लिए आवश्यक गहराई, विविधता और गुणवत्ता का अभाव होता है।
: इस कारण से, कंपनी ने कहा कि उसने Sarvam-2T नामक अपना स्वयं का प्रशिक्षण कोष विकसित किया है, जिसमें सभी दस भाषाओं में भाषाई डेटा के समान वितरण के साथ अनुमानित 2 ट्रिलियन टोकन शामिल हैं।
: प्रशिक्षण डेटासेट को वेब से स्क्रैप किए गए इंडिक भाषा डेटा में गहराई और गुणवत्ता के मुद्दों को दूर करने के लिए सिंथेटिक डेटा जनरेशन तकनीकों का उपयोग करके बनाया गया था।
: जबकि Sarvam-2T डेटासेट का 20 प्रतिशत हिस्सा हिंदी है, इसका एक बड़ा हिस्सा अंग्रेजी और प्रोग्रामिंग भाषाओं से भी बना है, जो AI मॉडल को एकभाषी और बहुभाषी कार्य करने में मदद करता है।
कितना बेहतर है Sarvam-1?
: Sarvam-1 को प्रति शब्द न्यूनतम टोकन का उपयोग करके पिछले LLM के विपरीत इंडिक भाषा लिपियों को संभालने में अधिक कुशल कहा जाता है।
: कंपनी का दावा है कि Sarvam-1 ने MMLU, ARC-Challenge और IndicGenBench जैसे बेंचमार्क पर मेटा के Llama-3 और Google के Gemma-2 मॉडल जैसे बड़े AI मॉडल को पीछे छोड़ दिया है।
: इसने TriviaQA बेंचमार्क पर इंडिक भाषाओं में 86.11 की सटीकता हासिल की, जो मेटा के Llama-3.1 8B के 61.47 के स्कोर से कहीं अधिक है।
: Sarvam-1 को Gemma-2-9B और Llama-3.1-8B जैसे बड़े मॉडल की तुलना में अनुमान लगाने की गति के साथ अधिक कम्प्यूटेशनली कुशल भी कहा जाता है।
: कंपनी ने कहा कि मजबूत प्रदर्शन और बेहतर अनुमान दक्षता का यह संयोजन Sarvam-1 को व्यावहारिक अनुप्रयोगों के लिए विशेष रूप से उपयुक्त बनाता है, जिसमें ऑन एज डिवाइस भी शामिल हैं।
: Sarvam-1 हगिंग फेस पर डाउनलोड के लिए उपलब्ध है, जो ओपन-सोर्स एआई मॉडल के लिए एक ऑनलाइन भंडार है।