विज्ञान एवं प्रौद्योगिकी
सर्वम AI और भारत में सॉवरेन AI
- 11 Feb 2026
- 97 min read
प्रिलिम्स के लिये: कृत्रिम बुद्धिमत्ता, सर्वम AI, सॉवरेन AI, इंडिया AI मिशन, लार्ज लैंग्वेज मॉडल
मेन्स के लिये: सॉवरेन AI और स्ट्रेटेजिक ऑटोनॉमी, इंडियाAI मिशन और इंडिजिनस LLM डेवलपमेंट, AI गवर्नेंस
चर्चा में क्यों?
भारत की कृत्रिम बुद्धिमत्ता (AI) महत्त्वाकांक्षाओं को बड़ी बढ़त देते हुए, बंगलुरु स्थित स्टार्टअप सर्वम AI के नवीनतम मॉडल—सर्वम विज़न और बुलबुल V3—ने कथित तौर पर भारत-विशिष्ट AI मानकों पर गूगल जेमिनी और OpenAI के चैटजीपीटी से बेहतर प्रदर्शन किया है। यह भारतीय आवश्यकताओं के अनुरूप सॉवरेन AI ईकोसिस्टम विकसित करने की दिशा में एक महत्त्वपूर्ण कदम है।
सारांश
- सर्वम् AI के मॉडल—सर्वम विज़न और बुलबुल V3—ने भारत-विशिष्ट मानकों पर वैश्विक मॉडलों से बेहतर प्रदर्शन किया है, जिससे इंडिया AI मिशन के तहत भारत की सॉवरेन AI महत्त्वाकांक्षाओं को मज़बूती मिली है।
- एक मज़बूत सॉवरेन AI ईकोसिस्टम के निर्माण के लिये डेटा संप्रभुता, सेमीकंडक्टर क्षमता, बहुभाषी समावेश, मितव्ययी नवाचार और AI शासन सुधारों पर ध्यान केंद्रित करना आवश्यक है, ताकि वास्तविक तकनीकी आत्मनिर्भरता प्राप्त की जा सके।
सर्वम विज़न और बुलबुल V3 क्या है?
- सर्वम विज़न: यह 3 बिलियन पैरामीटर्स वाला एक विज़न-लैंग्वेज मॉडल है, जो कई प्रकार के विजुअल (दृश्य) कार्यों को करने में सक्षम है। इसमें इमेज कैप्शनिंग (चित्र का वर्णन), सीन टेक्स्ट रिकग्निशन (चित्र में लिखे टेक्स्ट की पहचान), चार्ट की व्याख्या और जटिल तालिकाओं (टेबल्स) का विश्लेषण शामिल है।
- यह भौतिक भारतीय अभिलेखों, जैसे– पांडुलिपियाँ, वित्तीय तालिकाएँ और ऐतिहासिक ग्रंथ को डिजिटाइज़ करने पर केंद्रित है।
- प्रमुख विशेषताएँ:
- जहाँ पारंपरिक ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) केवल टेक्स्ट को पढ़ता है, वहीं सर्वम् विज़न "ज्ञान निष्कर्षण" करने में सक्षम है।
- यह किसी दस्तावेज़ की संरचना को समझता है, जटिल तालिकाओं, चार्ट्स और पढ़ने के क्रम की व्याख्या करता है (जैसे– कैप्शन और हेडलाइन में अंतर पहचानना)।
- यह 22 आधिकारिक भारतीय भाषाओं को कवर करने वाले डेटासेट पर प्रशिक्षित है, जिससे यह मिश्रित लिपियों वाले दस्तावेज़ों (जैसे– हिंदी और अंग्रेज़ी में सरकारी फॉर्म) को सँभालने में सक्षम है।
- प्रदर्शन: olmOCR-Bench के तहत जो यह आकलन करता है कि AI कितनी सटीकता से PDF और जटिल दस्तावेज़ छवियों को व्यवस्थित टेक्स्ट में बदलता है, सर्वम विज़न ने 84.3% स्कोर प्राप्त किया। इस मामले में इसने गूगल जेमिनी 3 प्रो (Google Gemini 3 Pro) और डीपसीक OCR v2 को भी पीछे छोड़ दिया है।
- OmniDocBench v1.5 पर, जो विविध वास्तविक दुनिया के फॉर्मेट्स में दस्तावेज़ पार्सिंग का परीक्षण करता है, इसने 93.28% सटीकता हासिल की, जो जटिल लेआउट्स को सँभालने में इसकी मज़बूत क्षमता को दर्शाता है।
- बुलबुल V3: यह सर्वम् का उन्नत टेक्स्ट-टू-स्पीच (TTS) AI मॉडल है, जिसे भारत की विविध भाषायी परिस्थितियों के अनुसार प्राकृतिक और क्षेत्र-विशेष भाषण उत्पन्न करने के लिये डिज़ाइन किया गया है।
- यह 11 भारतीय भाषाओं में 35 से अधिक पेशेवर-स्तरीय आवाज़ों का समर्थन करता है और सभी 22 अनुसूचित भाषाओं तक विस्तार की योजना है।
- बुलबुल V3 प्राकृतिक भाषण के लिये प्रोसोडी (रोक, स्वर और ज़ोर) को कैप्चर करता है तथा भारतीय उच्चारण एवं भाषायी सूक्ष्मताओं के लिये अनुकूलित है।
- यह कोड-स्विचिंग, क्षेत्रीय विविधताओं, संक्षिप्त शब्दों और भावनात्मक स्वर को सँभालता है, जिससे यह भारत के बहुभाषी वातावरण के लिये अत्यंत उपयुक्त बन जाता है।
- यह 10,300 करोड़ रुपये के इंडिया AI मिशन के तहत भारत की सॉवरेन AI मॉडलों की व्यापक पहल का हिस्सा है।
नोट: भारत सरकार ने IndiaAI मिशन के तहत देश का पहला स्वदेशी लार्ज लैंग्वेज मॉडल (LLM) विकसित करने के लिये बेंगलुरु स्थित स्टार्टअप सर्वम को चुना है।
- सर्वम तीन प्रकार के मॉडल विकसित कर रहा है: सर्वम-लार्ज (उन्नत तर्क एवं विश्लेषण), सर्वम-स्माॅल (रियल-टाइम अनुप्रयोगों हेतु) और सर्वम-एज़ (डिवाइस पर प्रत्यक्ष उपयोग के लिये), ताकि 70-बिलियन पैरामीटर वाला AI मॉडल तैयार किया जा सके, जिसका उद्देश्य भारतीय भाषाओं में व्यापक स्तर पर कार्यान्वयन है।
- सर्वम ने बहुभाषी और एंटरप्राइज़ उपयोग के लिये अनुकूलित AI उपकरणों का एक सेट लॉन्च किया है:
- सर्वम संवाद: वार्त्तालापात्मक AI एजेंट जो एंटरप्राइज़ टूल्स के साथ इंटीग्रेट होकर प्राइवेट डेटा का उपयोग कर इनसाइट्स उत्पन्न करते हैं और कार्रवाई करते हैं।
- सर्वम ऑडियो: 3B भाषा मॉडल का ऑडियो विस्तार, जो अंग्रेज़ी और 22 भारतीय भाषाओं का समर्थन करता है।
- सर्वम डब: AI डबिंग मॉडल जिसमें ज़ीरो-शॉट वॉइस क्लोनिंग और क्रॉस-लिंग्वल स्पीच क्षमता है, जिससे बहुभाषी सामग्री निर्माण संभव होता है।
सॉवरेन AI क्या है?
- परिचय: सॉवरेन AI उस क्षमता को परिभाषित करता है जिसके तहत कोई राष्ट्र अपनी स्वयं की अवसंरचना, डेटा, कार्यबल और नियामक ढाँचे का उपयोग करके कृत्रिम बुद्धिमत्ता (AI) प्रौद्योगिकियों का विकास, कार्यान्वयन और शासन कर सकता है, बजाय इसके कि वह विदेशी तकनीकी क्षेत्र की दिग्गज कंपनियों पर अत्यधिक निर्भर रहे।
- मुख्य दर्शन: इसका आधार ‘रणनीतिक स्वायत्तता’ (Strategic Autonomy) है, जो सुनिश्चित करता है कि किसी देश की महत्त्वपूर्ण डिजिटल अवसंरचना अन्य देशों के भू-राजनीतिक हितों या कॉर्पोरेट नीतियों के अधीन न हो।
- भारत के लिये महत्त्व:
- डेटा सुरक्षा: स्वदेशी मॉडल विकसित करने से संवेदनशील भारतीय डेटा (जैसे– आधार विवरण या वित्तीय रिकॉर्ड) को अमेरिका या चीन के सर्वरों तक भेजने की आवश्यकता नहीं रहती।
- सांस्कृतिक संदर्भ: वैश्विक मॉडल अक्सर ‘पश्चिमी मतिभ्रम’/Western Hallucinations से ग्रसित रहते हैं अर्थात उत्तर अमेरिकी संदर्भों के अनुसार प्रतिक्रिया देते हैं। सर्वम विज़न जैसे मॉडल भारतीय संदर्भ पर आधारित हैं, जिससे सांस्कृतिक पूर्वाग्रह कम होते हैं।
- संकुचित नवाचार (Frugal Innovation): सर्वम विज़न केवल 3 बिलियन पैरामीटर का उपयोग करके उच्च प्रदर्शन प्राप्त करता है, जबकि अन्य मॉडल, जैसे– Gemini ट्रिलियनों पैरामीटर पर आधारित हैं।
- किफायती और ऊर्जा-सक्षम: यह तकनीक किफायती और ऊर्जा-कुशल है, जो विकासशील अर्थव्यवस्था के लिये अत्यंत महत्त्वपूर्ण है।
- डिजिटल समावेशन: बुलबुल V3 जैसे उपकरण डिजिटल अंतराल को कम करने में सहायता करते हैं, जिससे अशिक्षित जनसंख्या अपनी स्थानीय भाषा में वॉइस के माध्यम से इंटरनेट से जुड़ सकती है।
भारत में सॉवरेन AI ईकोसिस्टम को विकसित करने में क्या-क्या चुनौतियाँ हैं?
- भाषायी बहिष्करण: इंटरनेट पर अंग्रेज़ी/लैटिन लिपियाँ प्रमुख हैं। भारत की 22 अनुसूचित भाषाओं और हज़ारों बोलियों के लिये उच्च-गुणवत्ता वाले टोकनाइज़्ड डेटासेट की कमी ‘टोकन असमानता’ उत्पन्न करती है, जिससे AI मॉडल स्थानीय भाषाओं के कार्यों में निम्नस्तरीय प्रदर्शन करते हैं।
- पक्षपात की पुनः पुष्टि: स्वदेशी मॉडल यदि असंगठित सामाजिक डेटा पर प्रशिक्षित किये जाएँ, तो वे अनजाने में जाति, लैंगिक या धार्मिक पूर्वाग्रहों को बढ़ा सकते हैं, जिससे कल्याण वितरण में एल्गोरिद्मिक भेदभाव उत्पन्न हो सकता है।
- जोखिम रहित पूंजीवाद: भारतीय वेंचर कैपिटल (VC) अक्सर अनुसंधान-गहन ‘डीप टेक’ की तुलना में ‘कंज़्यूमर टेक’ (क्विक कॉमर्स, फिनटेक) में सुरक्षित, कम-जोखिम वाले निवेश को प्राथमिकता देते हैं।
- सॉवरेन AI के लिये ‘धैर्यपूर्ण पूंजी’ (Patient Capital) की आवश्यकता होती है, जिसमें दीर्घ परिपक्वता अवधि हो, जो वर्तमान में दुर्लभ है।
- डेटा की गुणवत्ता और पहुँच: भारत विशाल डेटा उत्पन्न करता है, फिर भी इसका अधिकांश हिस्सा असंरचित है या सरकारी फाइलों में अलग-अलग रखा गया है। उच्च-गुणवत्ता वाले, मशीन-पठनीय डेटासेट तैयार करना अभी भी एक चुनौती है।
- ‘मोएट’ स्थिरता चुनौती: यदि वैश्विक तकनीकी दिग्गज (Google, Meta) अपने विशाल फाउंडेशनल मॉडल को विशेष रूप से उच्च-गुणवत्ता वाले भारतीय डेटासेट पर फाइन-ट्यून करने का निर्णय लेते हैं, तो प्रदर्शन में अंतर जल्दी से समाप्त हो सकता है, जिससे सर्वम का ‘मोएट’ प्रभावित हो जाएगा।
भारत की सॉवरेन AI ईकोसिस्टम को सशक्त बनाने हेतु किन उपायों की आवश्यकता है?
- AI को सेमीकंडक्टर मिशन से जोड़ना: भारत को केवल AI मॉडल (सॉफ्टवेयर) ही नहीं बनाना चाहिये बल्कि इसके लिये आवश्यक हार्डवेयर की सुरक्षा भी सुनिश्चित करनी चाहिये। इसके तहत, इंडिया सेमीकंडक्टर मिशन (ISM) को घरेलू स्तर पर AI-विशिष्ट चिप्स (ASIC/TPU) के निर्माण को प्राथमिकता प्रदान करने की आवश्यकता है।
- डिज़ाइन-प्रेरित विनिर्माण: स्वदेशी AI एक्सेलेरेटर (जैसे– IIT मद्रास द्वारा विकसित 'शक्ति' और 'वेगा' माइक्रोप्रोसेसर सीरीज़) के डिज़ाइन को प्रोत्साहित करना, ताकि NVIDIA/Intel पर निर्भरता कम हो और पूरी तरह से "आत्मनिर्भर" कंप्यूट स्टैक बनाया जा सके।
- ‘मितव्ययी AI' पर केंद्रित: पाश्चात्य देशों के विशाल मॉडलों का आँख मूँदकर अनुकरण करने के स्थान पर, भारत को स्माल लैंग्वेज मॉडल (SLM) पर ध्यान केंद्रित करना चाहिये, जो अत्यधिक दक्ष हों, कम ऊर्जा की खपत करते हों तथा उपभोक्ता उपकरणों (एज AI) पर संचालित होते हों।
- GPAI नेतृत्व: वैश्विक कृत्रिम बुद्धिमत्ता भागीदारी (GPAI) के प्रमुख अध्यक्ष के रूप में भारत अपनी स्थिति का उपयोग "वैश्विक दक्षिण" AI ढाँचे को बढ़ावा देने हेतु करे, जो केवल वाणिज्यिक लाभ के स्थान पर विकासात्मक लक्ष्यों (निर्धनता, रोग) को प्राथमिकता दे।
- डेटा रेजीडेंसी: डिजिटल व्यक्तिगत डेटा संरक्षण अधिनियम, 2023 का कठोर प्रवर्तन वैश्विक दिग्गजों को डेटा को स्थानीय रूप से संसाधित करने हेतु बाध्य करेगा, जिससे घरेलू AI अवसंरचना प्रदाताओं के विकास को और प्रोत्साहन मिलेगा।
- पायलट परियोजनाओं पर आधारित: भारतीय AI स्टार्टअप्स के लिये एक प्रमुख बाधा "पायलट पर्गेटरी" है, जहाँ उद्यम अंतहीन परीक्षण (Endless Test) तो करते हैं, किंतु कार्यान्वयन नहीं करते। सरकार स्वयं अग्रणी भूमिका निभाते हुए रेलवे, रक्षा एवं डाक सेवाओं में सार्वजनिक खरीद हेतु (मेक इन इंडिया पहल के अंतर्गत) स्वदेशी AI समाधानों के उपयोग को अनिवार्य कर सकती है।
- AI सुरक्षा संस्थान: ब्रिटेन के AI सुरक्षा संस्थान के समान एक वैधानिक निकाय की स्थापना की जाए, जो सार्वजनिक सेवाओं में कार्यान्वयन से पूर्व "हाई-इंपैक्ट" मॉडलों की सुरक्षा एवं पूर्वाग्रह हेतु परीक्षण एवं प्रमाणन कर सके।
निष्कर्ष
सॉवरेन AI केवल एक तकनीकी उन्नयन नहीं, अपितु भारत के लिये एक सामरिक अनिवार्यता है, ताकि वह एक डेटा आपूर्तिकर्त्ता से स्वदेशी बुद्धिमत्ता के सृजनकर्त्ता के रूप में परिवर्तित हो सके। AI को डिजिटल सार्वजनिक अवसंरचना एवं मितव्ययी नवाचार में समाहित करके भारत 21वीं सदी में अपने एल्गोरिद्म एवं डेटा का स्वामित्व धारण करते हुए सच्ची आत्मनिर्भरता सुनिश्चित कर सकता है।
|
दृष्टि मेन्स प्रश्न: प्रश्न. "सॉवरेन AI 21वीं सदी में राष्ट्रीय रक्षा का डिजिटल समकक्ष है।" स्वदेशी AI मॉडल में हाल के विकास को देखते हुए इस कथन पर चर्चा कीजिये। |
अक्सर पूछे जाने वाले प्रश्न
1. सॉवरेन AI क्या है?
सॉवरेन AI से आशय किसी राष्ट्र की अपनी घरेलू अवसंरचना, डेटा, प्रतिभा एवं विधिक ढाँचों का उपयोग करते हुए AI को विकसित करने, कार्यान्वित करने तथा विनियमित करने की क्षमता से है, ताकि सामरिक स्वायत्तता सुनिश्चित की जा सके।
2. इंडियाAI मिशन क्या है?
10,300 करोड़ रुपये का इंडियाAI मिशन स्वदेशी AI क्षमताओं के निर्माण हेतु लक्षित है, जिसमें आधारभूत लार्ज लैंग्वेज मॉडल, AI कंप्यूट अवसंरचना तथा नवाचार पारिस्थितिकी तंत्र का विकास सम्मिलित है।
3. सर्वम विज़न का क्या महत्त्व है?
सर्वम विज़न 22 भारतीय भाषाओं पर प्रशिक्षित एक 3 अरब-पैरामीटर विज़न-लैंग्वेज मॉडल है, जो दस्तावेज़ बुद्धिमत्ता में उत्कृष्ट है तथा भारत-विशिष्ट OCR बेंचमार्क्स पर वैश्विक मॉडलों से बेहतर प्रदर्शन करता है।
4. DPDP अधिनियम, 2023 सॉवरेन AI का कैसे समर्थन करता है?
डिजिटल व्यक्तिगत डेटा संरक्षण अधिनियम, 2023 डेटा रेजीडेंसी एवं स्थानीय प्रसंस्करण आवश्यकताओं को सुदृढ़ करता है, जिससे डोमेस्टिक AI इंफ्रास्ट्रक्चर डेवलपमेंट को प्रोत्साहन मिलता है।
5. भारत के सॉवरेन AI इकोसिस्टम के निर्माण में प्रमुख चुनौतियाँ क्या हैं?
चुनौतियों में भाषाई डेटा का अभाव, एल्गोरिदमिक पूर्वाग्रह, गहन तकनीकी क्षेत्र हेतु सीमित पेटेंट पूंजी, डेटा साइलो तथा विदेशी AI हार्डवेयर एवं आधारभूत मॉडलों पर निर्भरता सम्मिलित हैं।
UPSC सिविल सेवा परीक्षा, विगत वर्ष के प्रश्न
प्रारंभिक परीक्षा
प्रश्न. विकास की वर्तमान स्थिति में, कृत्रिम बुद्धिमत्ता, निम्नलिखित में से किस कार्य को प्रभावी रूप से कर सकती है? (2020)
- औद्योगिक इकाइयों में विद्युत् की खपत कम करना
- सार्थक लघु कहानियों और गीतों की रचना
- रोगों का निदान
- टेक्स्ट से स्पीच में परिवर्तन
- विद्युत् ऊर्जा का बेतार संचरण
नीचे दिये गए कूट का प्रयोग कर सही उत्तर चुनिये-
(a) केवल 1, 2, 3 और 5
(b) केवल 1, 3 और 4
(c) केवल 2, 4 और 5
(d) 1, 2, 3, 4 और 5
उत्तर: (b)
मुख्य परीक्षा:
प्रश्न. कृत्रिम बुद्धि (ए.आई.) की अवधारणा का परिचय दीजिये। ए.आई. क्लिनिकल निदान में कैसे मदद करता है? क्या आप स्वास्थ्य सेवा में ए.आई. के उपयोग में व्यक्ति की निजता को कोई खतरा महसूस करते हैं? (2023)
