Science

भारत का पहला सार्वभौमिक AI LLM ‘BharatGen’ लॉन्च, 22 भाषाओं का समर्थन

विज्ञान एवं प्रौद्योगिकी राज्य मंत्री (स्वतंत्र प्रभार) डॉ. जितेंद्र सिंह ने सोमवार को “BharatGen” को देश का पहला सर्वभौमिक (sovereign), बहुभाषी और मल्टीमॉडल AI-आधारित Large Language Model (LLM) घोषित किया। उन्होंने कहा कि यह मॉडल भारत में शासन, नवाचार और डिजिटल भविष्य को नई दिशा प्रदान करेगा।

आईआईटी बॉम्बे के दौरे पर उन्होंने बताया कि BharatGen देश का पहला राष्ट्रीय प्रयास है, जिसका उद्देश्य एक ऐसा भाषा मॉडल विकसित करना है जो भारत की भाषाई, सांस्कृतिक और सामाजिक विविधता को वास्तविक रूप से प्रतिबिंबित करता हो।

22 से अधिक भारतीय भाषाओं का समर्थन करने वाला BharatGen तीन प्रमुख मॉडैलिटी—टेक्स्ट, स्पीच और डॉक्यूमेंट विज़न—को एकीकृत करता है। इससे यह भारतीय उपयोगकर्ताओं के स्वाभाविक संवाद के अनुरूप समझ और जानकारी उत्पन्न कर सकता है।

मंत्री ने BharatGen की तकनीकी क्षमता और इसके व्यापक पैमाने की सराहना करते हुए कहा कि यह पहल भारत की तकनीकी आत्मनिर्भरता की दिशा में एक अहम कदम है।
उन्होंने कहा,
“BharatGen केवल एक तकनीकी परियोजना नहीं, बल्कि 1.4 अरब भारतीयों की भाषाओं, अनुभवों और आकांक्षाओं को AI में शामिल करने का राष्ट्रीय संकल्प है।”

उन्होंने यह भी कहा कि ऐसी पहलें प्रधानमंत्री नरेंद्र मोदी के उस विज़न को आगे बढ़ाती हैं, जिसके तहत विज्ञान और प्रौद्योगिकी के माध्यम से हर नागरिक को सशक्त बनाना है—ऐसी डिजिटल प्रणालियों के माध्यम से जो स्थानीय जरूरतों पर आधारित, भरोसेमंद और समावेशी हों।

BharatGen को विज्ञान एवं प्रौद्योगिकी मंत्रालय के NM-ICPS (National Mission on Interdisciplinary Cyber-Physical Systems) के तहत समर्थन मिला है। इसके लिए ₹235 करोड़ की राशि IIT बॉम्बे स्थित टेक्नोलॉजी इनोवेशन हब के माध्यम से प्रदान की जा रही है।

इस परियोजना में IIT बॉम्बे के नेतृत्व में IIT मद्रास, IIT कानपुर, IIIT हैदराबाद, IIT मंडी, IIT हैदराबाद, IIM इंदौर, IIT खड़गपुर और IIIT दिल्ली सहित कई प्रमुख संस्थान शामिल हैं।

परियोजना का प्रमुख घटक है Bharat Data Sagar—एक विशाल राष्ट्रीय डेटा उपक्रम, जिसे भारत के डिजिटल ज्ञान संसाधनों पर पूर्ण स्वामित्व और नियंत्रण सुनिश्चित करने के लिए विकसित किया जा रहा है।

दौरे के दौरान मंत्री ने BharatGen के तहत जारी किए गए मॉडल भी देखे:

  • Param-1: 2.9 बिलियन पैरामीटर्स वाला टेक्स्ट मॉडल, 7.5 ट्रिलियन टोकन पर प्रशिक्षित, जिसमें एक-तिहाई भारतीय सामग्री शामिल है।

  • Shrutam: 30 मिलियन पैरामीटर का Automatic Speech Recognition मॉडल।

  • Sooktam: 150 मिलियन पैरामीटर का Text-to-Speech मॉडल, 9 भारतीय भाषाओं में उपलब्ध।

  • Patram: भारत का पहला Document-Vision मॉडल, 7 बिलियन पैरामीटर, 2.5 बिलियन टोकन पर प्रशिक्षित, जो भारतीय दस्तावेज़ स्वरूपों को समझने में सक्षम है।

मंत्री ने कहा कि ये सभी मॉडल मिलकर एक संपूर्ण भारतीय AI स्टैक—टेक्स्ट, वॉयस और विज़न—तैयार करते हैं, जो शासन, शिक्षा, स्वास्थ्य, कृषि, उद्योग और डिजिटल समावेशन जैसे क्षेत्रों में व्यापक उपयोगिता प्रदान करेंगे।