Science

Google Gemini और ChatGPT को चुनौती देता भारत का Sarvam AI, सॉवरेन टेक्नोलॉजी से दुनिया को चौंकाया

अब तक आर्टिफिशियल इंटेलिजेंस की दुनिया में अमेरिका और चीन का दबदबा माना जाता था और भारत को ज़्यादातर सिर्फ टैलेंट का हब समझा जाता रहा है, न कि कोर AI डेवलपमेंट का केंद्र। लेकिन बेंगलुरु की स्टार्टअप Sarvam AI इस सोच को तेजी से बदलती नज़र आ रही है। भारत में ही शुरू से तैयार किए गए अपने सॉवरेन AI मॉडल्स के दम पर Sarvam AI अब Google Gemini, ChatGPT और Claude जैसे ग्लोबल टेक दिग्गजों को सीधी चुनौती दे रही है।

इन दिनों Sarvam AI के दो टूल्स—Sarvam Vision और Bulbul—खूब चर्चा में हैं। Sarvam Vision एक OCR यानी ऑप्टिकल कैरेक्टर रिकग्निशन आधारित AI मॉडल है, जिसने कुछ अहम बेंचमार्क्स पर ChatGPT, Google Gemini और Anthropic Claude जैसे बड़े मॉडल्स को पीछे छोड़ दिया है। इसकी सटीकता इतनी बेहतर बताई जा रही है कि AI एक्सपर्ट्स और यूज़र्स दोनों ही इसकी खुलकर तारीफ कर रहे हैं।

Sarvam AI के को-फाउंडर प्रत्युष कुमार ने X पर पोस्ट्स के ज़रिए इन उपलब्धियों की जानकारी दी। कंपनी के मुताबिक Sarvam Vision ने olmOCR-Bench पर 84.3 प्रतिशत की एक्यूरेसी हासिल की है, जो Gemini 3 Pro और DeepSeek OCR v2 जैसे मॉडलों से भी ज्यादा है, जबकि ChatGPT का स्कोर इससे काफी नीचे बताया गया है। इतना ही नहीं, OmniDocBench v1.5 पर भी Sarvam Vision ने 93.28 प्रतिशत का शानदार स्कोर किया है। खास बात यह रही कि जटिल लेआउट, टेक्निकल टेबल्स और गणितीय फॉर्मूले जैसे मुश्किल हिस्सों में भी इसका प्रदर्शन बेहद मजबूत रहा, जहां पारंपरिक OCR सिस्टम अक्सर फेल हो जाते हैं।

Sarvam AI को पहले सिर्फ इंडिक लैंग्वेज मॉडल्स पर फोकस करने को लेकर संदेह की नजर से देखा जाता था, लेकिन अब वही संदेह तारीफ में बदलता दिख रहा है। टेक कमेंटेटर Deedy Das ने भी माना कि उन्होंने Sarvam को पहले कम आंका था। उनके मुताबिक Sarvam के OCR और स्पीच मॉडल भारतीय भाषाओं के लिए बेहद मजबूत हैं और उस खाली जगह को भरते हैं, जिसे बड़े ग्लोबल AI लैब्स लंबे समय से नजरअंदाज करते आए हैं। यूज़र्स की प्रतिक्रियाएं भी कुछ ऐसी ही हैं, जहां कई लोगों ने Sarvam के टूल्स इस्तेमाल करने के बाद हैरानी और उत्साह दोनों जताया है।

OCR के अलावा Sarvam AI ने अपना नया टेक्स्ट-टू-स्पीच मॉडल Bulbul V3 भी लॉन्च किया है। यह AI वॉयस टूल भारतीय भाषाओं में नेचुरल और एक्सप्रेसिव आवाजें तैयार करने पर फोकस करता है। इसका कॉन्सेप्ट ElevenLabs जैसे इंटरनेशनल AI वॉयस प्लेटफॉर्म से मिलता-जुलता है, लेकिन इसे पूरी तरह भारत-केंद्रित जरूरतों के हिसाब से डिजाइन किया गया है। फिलहाल Bulbul V3 में 11 भारतीय भाषाओं में 35 से ज्यादा आवाजें उपलब्ध हैं और कंपनी इसे आगे बढ़ाकर 22 भाषाओं तक ले जाने की योजना पर काम कर रही है।