Yapay Zeka ve Bilgisayar Kullanımında Yeni Bir Dönem: NVDA İçin Profesyonel Görsel Asistan Eklentisi

Toplam Okunma 32

Merhabalar değerli arkadaşlar!

Bilişim bülteni köşesinde, bu ilk yazımla sizlerle birlikte olmanın mutluluğunu yaşıyorum! Bu ilk yazımda sizlere, yeni sayılan ancak harika işlevleri olan bir NVDA eklentisinden bahsedecek ve bu eklentinin kullanımını detaylı bir şekilde anlatmaya gayret edeceğim.

Eklentimizin ismi: Profesyonel Görsel Asistan (Vision Assistant Pro).

İranlı geliştirici Mahmood Hozhabri tarafından geliştirilen ve Dünya Engelliler Günü onuruna topluluğa sunulan bu araç, gerçekten devrim niteliğinde özellikleri içerisinde barındıran mükemmel, çok modlu bir yapay zeka asistanıdır.

Bu Eklenti ile Neler Yapabilirsiniz?

  • Gelişmiş Metin Tanıma (OCR): Çeşitli yapay zeka motorları arasından seçim yaparak, el yazısı da dahil olmak üzere görsellerden ve PDF'lerden metinleri çıkarın. Hızlı sonuçlar için tarayıcı altyapısını (Chrome) veya sayfa düzenini korumak için yapay zeka (Gemini) altyapısını tercih edebilirsiniz.
  • Metin İyileştirme ve Sohbet: Bir metni yapay zekaya göndererek açıklamalar veya özetler alın, dil bilgisi düzeltmeleri yapın ve bu metin hakkında takip soruları sorun.
  • Belge Okuyucu ve Ses Üretimi (TTS): Gelişmiş metin okuyucu sayesinde çok sayfalı belgeleri rahatça okuyun. İsterseniz bu metinleri, etkin yapay zeka motorunun sesleriyle yüksek kaliteli ses dosyalarına (MP3/WAV) dönüştürerek kaydedin.
  • Akıllı Çeviri: Seçili ya da panodaki bir metni, dilediğiniz dile yapay zeka modellerinin gücünü kullanarak çevirin.
  • Görsel ve Video Analizi: Bir resim dosyasını, odaklanılan gezgin nesnesini ya da tam ekranı yapay zekaya gönderip detaylı betimlemeler alın. Ayrıca YouTube, Instagram, TikTok veya Twitter (X) video bağlantılarını analiz edip özetletebilirsiniz.
  • Ses Dökümü ve Dikte (STT): Bir ses dosyasını (MP3, WAV, OGG) yapay zekaya göndererek tamamen metne çevirin. Herhangi bir yazma alanında, Word veya Not Defteri gibi uygulamalarda kendi sesinizi dikte ederek yazıya dökülmesini sağlayın.
  • CAPTCHA Çözücü: Web sayfalarındaki karmaşık ve çözülemez CAPTCHA'ları yapay zeka yardımıyla kolayca aşın.
  • Özel İstemler (Yeni): Pano içeriği veya ekran görüntüsü gibi değişkenleri kullanarak yapay zekaya tamamen kendi belirlediğiniz özel görevleri verebilirsiniz.

Ve Gelelim En Büyük Özelliklerine: Otonom Kontrol!

Yapay zekaya tüm bilgisayar işlemlerini yaptırabileceğinizi biliyor muydunuz? Örneğin ona "Denetim Masasını aç ve şu programı kaldır" deyin, ya da "Şu web sitesindeki formu benim için doldur" gibi talimatlar verin; Yapay Zeka Operatörü tüm bu işleri sizin yerinize halletsin.

Tamamen etiketsiz düğmelerle dolu bir uygulamada geziniyor ya da hiçbir şekilde arayüzü okunamayan bir programda işlem mi yapmaya çalışıyorsunuz? Kullanıcı Arayüzü Gezgini (UI Explorer) sayesinde, yapay zekanın ekran okuyucuyla iletişim kuramayan tüm alanları analiz edip, bunları size tıklanabilir düğmeler listesi halinde sunmasını sağlayabilirsiniz.

⚠️ Önemli Bir Uyarı: Kota Meselesine Dikkat!

Yapay Zeka Operatörünün (Ajan Modu) doğru çalışabilmesi ve işlemleri yapabilmesi için her adımda ne olduğunu "görmesi", yani yüksek çözünürlüklü ekran görüntüleri gönderip alması gerekir. Bu harika özelliği sürekli kullanmak, API kotanızın tabiri caizse anasını ağlatabilir! Ücretsiz API anahtarlarında saniye/dakika başına belirli bir sorgu ve görsel işleme sınırı olduğunu lütfen unutmayın. Aksi takdirde eklenti geçici olarak hata verebilir.

 

Eklenti Kurulumu ve Yapılandırma

Eklentiyi NVDA eklentileri mağazasından veya doğrudan bu bağlantıya tıklayarak indirebilirsiniz.

Eklentiyi kurduktan sonra, kullanacağınız yapay zeka modeli için bir API anahtarı almanız gerekmektedir. Eklenti; Google Gemini, OpenAI GPT, Groq, Mistral ve yerel sunucuları desteklese de, özellikle Yapay Zeka Operatörü (Ajan modu) ve resim/dosya analizinde en iyi performansı gösterdiği için benim tavsiyem Google Gemini kullanmanızdır.

Adım Adım Ücretsiz Google Gemini API Anahtarı Alma

  1. Tarayıcınızdan aistudio.google.com adresine gidin ve Google hesabınızla oturum açın.
  2. Sayfa yüklendiğinde sol taraftaki gezinme menüsünü (veya tab tuşuyla sekmeleri) kullanarak "Get API key" bağlantısını bulup tıklayın.
  3. Açılan ekranda "Create API key" düğmesine basın.
  4. Karşınıza çıkan onay penceresinde "Create API key in new project" butonunu bularak yeni bir proje içinde anahtarınızı oluşturun. (Sistem birkaç saniye içinde size özel karmaşık bir metin üretecektir).
  5. Son olarak, ekranda beliren "Copy" düğmesine basarak API anahtarınızı panoya kopyalayın.

NVDA Üzerinden Ayarları Tamamlama

  1. NVDA Menüsü > Tercihler > Ayarlar > Profesyonel Görsel Asistan kategorisine gelin.
  2. Sağlayıcı olarak Google Gemini'yi seçin.
  3. Tab ile ilerleyerek "API Anahtarı" yazma alanına panodaki anahtarı yapıştırın.
  4. Daha sonra "Modelleri Al" düğmesine boşluk tuşu ile basıp model listesini güncelleyin.
  5. Model listesinden kullanacağınız ana modeli seçin. (Not: Ajan modu ve görsel işlemler için şaşırtıcı derecede iyi performans veren model "Gemini 3.0 Flash (Önizleme)" modelidir).
  6. (İsteğe Bağlı): Eğer ileri düzey bir kullanıcıysanız, "Gelişmiş Model Yönlendirme" seçeneğini işaretleyerek çeviri, seslendirme (TTS) ve görsel analiz için farklı modeller atayabilirsiniz.
  7. Çeviri hedef dili ve yaratıcılık (sıcaklık) gibi diğer tercihlerinizi kendi ihtiyaçlarınıza göre yapılandırıp ayarları kaydedin ve NVDA'yı yeniden başlatın.

 

Eklentinin Kullanımı ve Klavye Kısayolları

Eklenti, klavye çakışmalarını önlemek için bir komut katmanına sahiptir. Bu katmanı etkinleştirmek için NVDA + Shift + V tuşlarına basın. Katman etkinleştiğinde bir bip sesi duyacaksınız.

Ardından tuşları bırakıp aşağıdaki tekil tuşlardan birine basarak eklentiyi çalıştırabilirsiniz:

  • Shift + A (Yapay Zeka Operatörü): Bilgisayarınızda otonom bir eylem gerçekleştirmesini isteyin.
  • E (Kullanıcı Arayüzü Gezgini): Etiketsiz uygulamalarda etkileşimli tıklama listesini açın.
  • T (Akıllı Çeviri): Dolaşım imleci altındaki veya seçili metni çevirir.
  • Shift + T (Panodan Çeviri): Panoda bulunan metni çevirir.
  • R (Metin İyileştirici): Seçilen metni açıklamak, özetlemek, düzeltmek veya Özel İstemler çalıştırmak için menü açar.
  • V (Nesne Görsel Analizi): Geçerli dolaşım nesnesini betimler.
  • O (Tam Ekran Görsel Analizi): Tüm ekran düzenini ve içeriğini detaylıca analiz edip betimler.
  • Shift + V (Video Analizi): Kopyalanan YouTube, Instagram, Twitter veya TikTok video bağlantısını analiz eder.
  • D (Belge Okuyucu): Sayfa aralığı seçimi sunarak PDF ve görseller için gelişmiş okuyucuyu açar. (Görüntüleyici içindeyken Alt+A ile belge hakkında sorular sorabilir, Alt+G ile metni sese dönüştürebilir, Alt+S ile TXT/HTML olarak kaydedebilirsiniz).
  • F (Dosya OCR): Seçilen bir görüntü veya PDF dosyası üzerinde akıllı metin çıkarma ya da betimleme gerçekleştirir.
  • A (Ses Dökümü): Seçilen bir ses dosyasını metne dönüştürür.
  • S (Akıllı Dikte): Sesi kaydeder, yapay zeka kullanarak metne dönüştürür ve sonucu yazar (Başlatmak için basın, bitirmek için tekrar basın).
  • C (CAPTCHA Çözücü): Ekrandaki CAPTCHA'yı çözmeyi dener.
  • Boşluk Çubuğu (Son Sonucu Çağır): İnceleme veya takip soruları sormak için sohbet iletişim kutusundaki son yapay zeka yanıtını tekrar ekrana getirir.
  • L (Durumu Seslendir): Eklentinin mevcut durumunu (ör. "Taranıyor...", "Boşta") seslendirir.
  • U (Güncellemeleri Denetle): Eklentinin güncellemelerini el ile denetler.
  • H (Komut Yardımı): Katmandaki kullanılabilir komutların listesini gösterir.

Bu kısayolları dilerseniz NVDA Girdi Hareketleri menüsünden tamamen kendi alışkanlıklarınıza göre özelleştirebilirsiniz.

Yazımı tamamlarken, böyle mükemmel bir eklentinin camiamıza hayırlı ve faydalı olmasını temenni ediyorum. Başka bir makalede görüşmek üzere!

 

Yorumlar

Bu yazı için henüz yorum yok.

Yeni Yorum