Thursday, May 8, 2014

Cari Teknologi



Masing-masing kita telah dihadapkan dengan masalah mencari informasi lebih dari sekali . Terlepas dari sumber data yang kita gunakan ( Internet , sistem file pada hard drive kita , data base atau sistem informasi global dari sebuah perusahaan besar ) masalah dapat beberapa dan termasuk volume fisik dari data base dicari , informasi yang tidak terstruktur , jenis file yang berbeda dan juga kompleksitas akurat kata-kata permintaan pencarian . Kami telah mencapai tahap ketika jumlah data pada satu PC tunggal sebanding dengan jumlah data teks yang tersimpan dalam perpustakaan yang tepat . Dan untuk arus data terstruktur , di masa depan mereka hanya akan meningkat , dan pada tempo yang sangat cepat . Jika untuk rata-rata pengguna ini mungkin hanya kemalangan kecil , untuk sebuah perusahaan besar tidak adanya kontrol atas informasi dapat berarti masalah yang signifikan . Jadi kebutuhan untuk membuat sistem pencarian dan teknologi menyederhanakan dan mempercepat akses ke informasi yang diperlukan , berasal lama . Sistem seperti ini banyak dan apalagi tidak setiap salah satu dari mereka didasarkan pada teknologi yang unik . Dan tugas memilih yang tepat tergantung langsung pada tugas-tugas tertentu yang harus diselesaikan di masa depan . Sementara permintaan untuk pencarian data dan pengolahan alat yang sempurna terus berkembang mari kita mempertimbangkan keadaan dengan sisi penawaran .

Tidak akan dalam ke berbagai kekhasan teknologi , semua program pencarian dan sistem dapat dibagi menjadi tiga kelompok . Ini adalah : sistem Internet global , solusi bisnis turnkey ( corporate pencarian data dan teknologi pengolahan ) dan frase yang sederhana atau pencarian file di komputer lokal . Arah yang berbeda mungkin berarti solusi yang berbeda .

pencarian lokal

Semuanya jelas tentang pencarian di PC lokal . Ini tidak luar biasa untuk setiap fitur fungsi tertentu menerima untuk pilihan jenis file ( media, teks dll ) dan tujuan pencarian . Cukup masukkan nama file dicari ( atau bagian dari teks, misalnya dalam format Word ) dan hanya itu . Kecepatan dan hasilnya tergantung sepenuhnya pada teks yang dimasukkan ke dalam garis query. Ada nol intelektualitas dalam hal ini : hanya mencari melalui file yang tersedia untuk menentukan relevansinya . Hal ini diterangkan dalam arti nya : apa gunanya menciptakan sistem yang canggih untuk kebutuhan rumit tersebut.

Teknologi pencarian global

Hal-hal berdiri sama sekali berbeda dengan sistem pencarian yang beroperasi di jaringan global . Satu tidak bisa mengandalkan hanya pada mencari melalui data yang tersedia . Volume besar ( Yandex misalnya dapat membanggakan kapasitas pengindeksan lebih dari 11 terabyte data ) dari kekacauan global informasi yang tidak terstruktur akan membuat pencarian sederhana tidak hanya efektif tetapi juga panjang dan memakan tenaga kerja. Itulah sebabnya akhir-akhir ini fokus telah bergeser ke arah mengoptimalkan dan meningkatkan karakteristik kualitas pencarian . Namun skema ini masih sangat sederhana ( kecuali untuk inovasi rahasia setiap sistem terpisah ) - pencarian phrasal melalui data base diindeks dengan pertimbangan yang tepat untuk morfologi dan sinonim . Tidak diragukan lagi , pendekatan seperti itu bekerja tapi tidak memecahkan masalah sama sekali . Membaca puluhan berbagai artikel yang didedikasikan untuk meningkatkan pencarian dengan bantuan Google atau Yandex , seseorang dapat mengarahkan pada kesimpulan bahwa tanpa mengetahui peluang yang tersembunyi dari sistem ini menemukan dokumen yang relevan dengan query adalah masalah lebih dari satu menit , dan kadang-kadang lebih dari satu jam . Masalahnya adalah bahwa realisasi seperti pencari sangat tergantung pada permintaan kata atau frase , yang dimasukkan oleh pengguna . Semakin tidak jelas query yang buruk adalah pencarian . Ini telah menjadi aksioma , atau dogma , mana yang Anda inginkan .

Tentu saja, cerdas menggunakan fungsi kunci dari sistem pencarian dan benar mendefinisikan frase dimana dokumen dan situs yang dicari , adalah mungkin untuk mendapatkan hasil yang dapat diterima . Tapi ini akan menjadi hasil pekerjaan mental melelahkan dan waktu yang terbuang untuk melihat melalui informasi yang tidak relevan dengan harapan untuk setidaknya menemukan beberapa petunjuk tentang cara untuk meng-upgrade permintaan pencarian . Secara umum, skema adalah sebagai berikut : masukkan frasa , melihat melalui beberapa hasil , memastikan bahwa permintaan itu tidak tepat , masukkan frase baru dan tahapan yang berulang sampai relevansi hasil mencapai tingkat tertinggi . Tetapi bahkan dalam kasus bahwa kemungkinan untuk menemukan dokumen yang tepat masih sedikit . Tidak ada rata-rata pengguna akan sukarela pergi untuk kecanggihan " advanced search " ( meskipun dilengkapi dengan sejumlah fungsi yang sangat berguna seperti pilihan bahasa , format file dll ) . Yang terbaik adalah dengan hanya memasukkan kata atau frase dan mendapatkan jawaban yang siap, tanpa perhatian khusus untuk sarana mendapatkan itu . Biarkan kuda berpikir - ia memiliki kepala besar . Mungkin ini tidak persis sampai ke titik , tetapi salah satu fungsi pencarian Google disebut " Saya merasa beruntung ! " mencirikan sangat baik teknologi pencarian ada. Namun demikian , karya-karya teknologi , tidak idealnya dan tidak selalu membenarkan harapan , tetapi jika Anda memungkinkan untuk kompleksitas mencari melalui kekacauan volume data internet , itu bisa diterima .

sistem perusahaan

Yang ketiga dalam daftar adalah solusi turnkey berdasarkan teknologi pencarian . Mereka dimaksudkan untuk perusahaan yang serius dan perusahaan , memiliki basis data yang benar-benar besar dan staf dengan segala macam sistem informasi dan dokumen . Pada prinsipnya , teknologi itu sendiri juga dapat digunakan untuk kebutuhan rumah . Sebagai contoh, seorang programmer bekerja jarak jauh dari kantor akan membuat baik penggunaan pencarian untuk akses acak terletak pada hard drive kode sumber programnya . Tapi ini khusus . Aplikasi utama dari teknologi ini masih memecahkan masalah dengan cepat dan akurat mencari melalui volume data yang besar dan bekerja dengan berbagai sumber informasi . Sistem tersebut biasanya beroperasi dengan skema yang sangat sederhana ( meskipun ada pasti banyak metode unik pengindeksan dan pengolahan pertanyaan di bawah permukaan ) : cari frase , dengan pertimbangan yang tepat untuk semua bentuk batang , sinonim dll yang sekali lagi membawa kita ke masalah sumber daya manusia . Ketika menggunakan teknologi tersebut usernya kata pertama frase permintaan yang akan menjadi kriteria pencarian dan mungkin bertemu di dokumen yang diperlukan yang akan diambil . Tetapi tidak ada jaminan bahwa pengguna akan dapat memilih secara independen atau mengingat kalimat yang benar dan lebih jauh lagi , bahwa pencarian dengan frase ini akan memuaskan .

Satu lagi saat kunci adalah kecepatan pemrosesan query . Tentu saja, bila menggunakan seluruh dokumen bukan beberapa kata , keakuratan pencarian meningkat manifold . Tetapi sampai saat ini , seperti kesempatan belum digunakan karena menguras kapasitas tinggi dari proses tersebut . Intinya adalah bahwa pencarian dengan kata-kata atau frasa tidak akan memberikan kita dengan kemiripan yang sangat relevan hasil . Dan pencarian dengan frase yang sama dalam panjangnya seluruh dokumen mengkonsumsi banyak waktu dan sumber daya komputer . Berikut adalah contoh : saat memproses query dengan satu kata tidak ada perbedaan yang cukup besar dalam kecepatan : apakah itu 0,1 atau 0,001 kedua tidak sangat penting bagi pengguna. Tapi ketika Anda mengambil dokumen ukuran rata-rata yang berisi sekitar 2000 kata-kata unik , maka pencarian dengan pertimbangan untuk morfologi ( bentuk batang ) dan tesaurus ( sinonim ) , serta menghasilkan daftar yang relevan dari hasil dalam kasus pencarian dengan kata kunci akan mengambil beberapa puluhan menit ( yang tidak dapat diterima bagi pengguna ) .

Ringkasan interim

Seperti yang bisa kita lihat , saat ini sistem dan teknologi pencarian yang ada , meskipun benar berfungsi , tidak memecahkan masalah pencarian sepenuhnya. Di mana kecepatan dapat diterima relevansi daun banyak yang harus diinginkan . Jika pencarian akurat dan memadai , mengkonsumsi banyak waktu dan sumber daya . Hal ini tentu saja mungkin untuk memecahkan masalah dengan cara yang sangat jelas - dengan meningkatkan kapasitas komputer . Tapi melengkapi kantor dengan puluhan komputer ultra-cepat yang akan terus memproses permintaan phrasal terdiri dari ribuan kata-kata unik , berjuang melalui gigabyte korespondensi masuk , literatur teknis , laporan akhir dan informasi lainnya lebih dari irasional dan merugikan . Ada cara yang lebih baik .

Pencarian konten serupa yang unik

Saat ini banyak perusahaan yang intensif bekerja pada pengembangan pencarian teks lengkap . Kecepatan perhitungan memungkinkan menciptakan teknologi yang memungkinkan queries dalam eksponen yang berbeda dan beragam kondisi tambahan . Pengalaman dalam menciptakan pencarian phrasal menyediakan perusahaan-perusahaan dengan keahlian untuk lebih mengembangkan dan menyempurnakan teknologi pencarian . Secara khusus, salah satu pencarian paling populer adalah Google , dan yaitu salah satu fungsinya disebut " halaman yang sama " . Menggunakan fungsi ini memungkinkan pengguna untuk melihat halaman kesamaan maksimal dalam konten mereka untuk sampel satu . Berfungsi pada prinsipnya , fungsi ini belum memungkinkan mendapatkan hasil yang relevan - mereka kebanyakan kabur dan relevansi yang rendah dan lebih jauh lagi , kadang-kadang memanfaatkan fungsi ini menunjukkan tidak adanya lengkap halaman serupa sebagai hasilnya . Kemungkinan besar , ini adalah hasil dari sifat kacau dan tidak terstruktur informasi di internet . Tapi begitu preseden telah dibuat , munculnya pencarian yang sempurna tanpa hambatan hanya masalah waktu .

Apa yang menyangkut pengolahan data perusahaan dan sistem pengambilan pengetahuan , di sini hal-hal berdiri jauh lebih buruk . The berfungsi ( tidak ada di atas kertas ) teknologi sangat sedikit . Dan tidak ada raksasa atau yang disebut teknologi pencarian guru sejauh ini berhasil menciptakan pencarian konten yang sama nyata . Mungkin , alasannya adalah bahwa hal itu tidak sangat dibutuhkan , mungkin - terlalu sulit untuk diterapkan. Tapi ada satu yang berfungsi sekalipun.

SoftInform Cari Teknologi , yang dikembangkan oleh SoftInform , adalah teknologi untuk mencari dokumen serupa dalam konten mereka untuk sampel . Hal ini memungkinkan pencarian cepat dan akurat untuk dokumen konten serupa dalam volume data. Teknologi ini didasarkan pada model matematika menganalisis struktur dokumen dan memilih kata-kata , kombinasi kata dan array teks , yang menghasilkan membentuk daftar dokumen kesamaan maksimum sampel teks abstrak dengan relevansi persen ditetapkan . Berbeda dengan standar pencarian frase dengan mencari konten yang sama tidak perlu untuk menentukan kata kunci sebelumnya - pencarian dilakukan melalui seluruh dokumen . Teknologi ini bekerja dengan beberapa sumber informasi yang dapat disimpan baik dalam file teks txt , doc , rtf , pdf , htm, html format , dan sistem informasi basis data yang paling populer ( Access , MS SQL , Oracle , serta karena setiap basis data yang SQL - pendukung ) . Ini juga tambahan mendukung sinonim dan kata-kata penting fungsi yang memungkinkan untuk melakukan pencarian yang lebih spesifik .

Teknologi pencarian yang sama memungkinkan untuk secara signifikan mengurangi waktu yang terbuang untuk mencari dan mengkaji dokumen yang sama atau sangat mirip , mengurangi waktu pemrosesan pada tahap memasukkan data ke dalam arsip dengan menghindari duplikat dokumen dan membentuk set data dengan subjek tertentu . Keuntungan lain dari teknologi SoftInform adalah bahwa hal itu tidak begitu sensitif terhadap kapasitas komputer dan memungkinkan pengolahan data pada kecepatan yang sangat tinggi bahkan pada komputer kantor biasa .

Teknologi ini bukan hanya pengembangan teori . Ini telah diuji dan berhasil diterapkan dalam proyek memberikan nasihat hukum melalui telepon , di mana kecepatan pencarian informasi adalah sangat penting . Dan itu pasti akan lebih bermanfaat dalam basis pengetahuan , layanan analitis dan dukungan departemen setiap perusahaan besar . Universalitas dan efektivitas SoftInform Cari Teknologi memungkinkan pemecahan spektrum yang luas dari masalah , yang timbul saat memproses informasi . Ini termasuk ketidakjelasan informasi ( pada dokumen memasuki tahap adalah mungkin untuk segera menentukan apakah dokumen tersebut sudah milik data base atau tidak ) dan analisis kesamaan dokumen yang sudah dimasukkan ke dalam data base , dan pencarian untuk dokumen semantik yang menghemat waktu yang dihabiskan untuk memilih kata kunci yang tepat dan melihat dokumen-dokumen yang tidak relevan .

perspektif

Selain tugas utamanya ( pencarian cepat dan berkualitas tinggi untuk informasi dalam volume besar seperti teks , arsip , basis data) arah internet juga bisa didefinisikan . Sebagai contoh, adalah mungkin untuk bekerja di luar sistem pakar untuk proses korespondensi yang masuk dan berita yang akan menjadi alat penting bagi para analis dari perusahaan yang berbeda . Terutama , ini akan menjadi mungkin karena teknologi pencarian konten yang sama yang unik , absen dari salah satu sistem ada sejauh ini kecuali untuk SearchInform . Masalah mesin pencari spamming dengan apa yang disebut pintu ( halaman tersembunyi dengan kata kunci mengarahkan ke halaman utama situs dan digunakan untuk meningkatkan rating halaman dengan mesin pencari ) dan e -mail masalah spam ( analisis yang lebih intelektual akan memastikan lebih tinggi tingkat keamanan ) juga akan diselesaikan dengan bantuan teknologi ini . Tapi perspektif yang paling menarik dari teknologi SoftInform Cari adalah menciptakan mesin pencari Internet baru , keunggulan kompetitif utama yang akan menjadi kemampuan untuk mencari tidak hanya dengan kata-kata kunci , tetapi juga untuk halaman web yang sama , yang akan menambah fleksibilitas pencarian sehingga lebih nyaman dan efisien .

Untuk menarik kesimpulan , dapat dikatakan dengan keyakinan bahwa masa depan milik teknologi pencarian teks penuh , baik di internet dan sistem pencarian perusahaan. Potensi pengembangan yang tak terbatas , kecukupan hasil dan kecepatan pemrosesan dari berbagai ukuran dari permintaan membuat teknologi ini jauh lebih nyaman dan permintaan tinggi . SoftInform teknologi Pencarian mungkin tidak menjadi pelopor , tapi itu berfungsi , stabil dan unik satu dengan analog ada (yang dapat dibuktikan dengan paten Eurasia yang aktif ) . Untuk pikiran saya , bahkan dengan bantuan pencarian " sama" akan sulit untuk menemukan teknologi serupa .

No comments:

Post a Comment