Open Source Enterprise Search dengan Arch Search Engine

"Letakkan dua kata" pencarian intranet "di kotak pencarian Google dan apa yang Anda dapatkan? Tautan pertama diberi judul," Mengapa pencarian intranet gagal: Gerry McGovern ".

Beginilah artikel pertama kami di Arch "Pencarian Korporat: Bisakah Kita Mendapatkan Google?" Http://www.atnf.csiro.au/computing/software/arch/ArchWebArticle.pdf mulai. Pernyataan ini tidak lagi benar. Pada saat penulisan, setidaknya di Australia, link pertama diberi judul, "Arch Intranet Search Engine" http://www.atnf.csiro.au/computing/software/arch/. Kami harap ini merupakan indikasi bahwa Arch membuat perbedaan di bidang ini. Di sini kita membahas beberapa fitur utama Arch dan menunjukkan bagaimana ini memungkinkan pencarian intranet yang efektif dan efisien di lingkungan perusahaan.

Pada artikel pertama, kami menjelaskan mengapa mencari intranet adalah masalah yang sulit, dan menawarkan solusi. Secara singkat, metode yang digunakan oleh Google, berdasarkan statistik tautan web, memberikan hasil yang sangat baik di web global, namun pendekatan ini tidak bekerja untuk intranet, karena tautan web intranet tidak memberikan cukup informasi statistik untuk memperkirakan kualitas dokumen . Untuk mengetahui halaman web mana yang paling relevan dengan pencari, Arch menggunakan sumber informasi statistik yang berbeda yang tersedia di intranet: ia memperkirakan kualitas dokumen relatif berdasarkan frekuensi akses yang didapat dari log web server.

Lingkungan perusahaan memiliki intranet yang kompleks dan substansial. Untuk lingkungan seperti itu, tantangan menyediakan layanan pencarian menjadi tidak sepele dan ada banyak persyaratan yang harus dipenuhi, selain untuk mencari ketepatan dan kualitas. Tantangannya adalah:

1. Skala besar: intranet perusahaan dapat memiliki beberapa server web, dengan jutaan dokumen berada pada mereka. Mesin pencari perusahaan harus dapat secara efisien mengindeks dan mencari informasi dalam jumlah besar.

2. Kontrol akses: harus dimungkinkan untuk mengendalikan siapa yang dapat menemukan apa. Orang yang tidak diizinkan melihat dokumen yang dibatasi tidak boleh melihat entri dalam hasil pencarian apa pun.

3. Kompleksitas organisasi dan desentralisasi: perusahaan mungkin memiliki unit organisasi yang berfungsi relatif mandiri. Misalnya, unit dapat memiliki server web atau intranet sendiri yang dikelola oleh tim TI. Mesin pencari perusahaan harus mengizinkan kontrol data yang terdesentralisasi oleh kurator.

4. Kompleksitas dan distribusi topologi: dalam hal jaringan, ruang perusahaan bisa sangat kompleks. Ini dapat terdiri dari beberapa cluster yang terletak jauh dari satu sama lain dan dipisahkan oleh firewall. Mesin pencari perusahaan harus bisa berfungsi dalam kondisi seperti ini.

5. Data heterogenitas: di lingkungan perusahaan, mesin pencari harus bisa membaca sejumlah besar format data. Hal ini juga penting untuk dapat mengambil data yang disimpan di berbagai lokasi, seperti database dan portal data, serta langsung di server web.
Kami sekarang membahas bagaimana Arch menyediakan solusi untuk semua persyaratan ini.

Skalabilitas

Arch melakukan pengindeksan menggunakan paket open source, Apache Nutch, yang telah dirancang untuk bisa merangkak dan mengindeks keseluruhan web. Di sisi pencarian, Arch menggunakan Apache Solr, yang unggul dalam efisiensi dan skalabilitas. Berdasarkan paket ini, Arch mampu mengindeks dan mencari intranet dengan ukuran yang efisien. Arch juga memungkinkan penggunaan partisi untuk merangkak lebih efisien. Beberapa area dapat dikonfigurasi dan ini dapat dijelajahi pada frekuensi yang berbeda, tergantung pada persyaratan, seperti seberapa sering mereka diperbarui dan ukurannya. Arch tidak hanya mampu mengindeks intranet dari berbagai ukuran, tapi juga sangat efisien.

Kontrol akses

Arch mendukung kontrol akses tingkat dokumen, sehingga memungkinkan untuk menentukan akses ke dokumen tertentu secara tepat. Dalam kasus yang paling sederhana, ini dapat menghapus kebutuhan untuk menjalankan dua mesin telusur terpisah: yang umum dan satu intranet. Arch dapat mengindeks semuanya dalam satu indeks dan kemudian menyajikan pandangan yang berbeda kepada publik dan staf. Secara umum, Arch dapat dengan mudah menentukan kelompok pengguna mana yang dapat melihat sekumpulan dokumen yang berada di folder dan subfoldernya.

Kompleksitas organisasi dan desentralisasi

Arch dirancang dengan pencarian hosting: dapat digunakan untuk meng-host layanan pencarian, dengan klien mengelola partisi mereka sepenuhnya independen dan transparan, tidak saling mengenal. Ini mendukung jumlah yang tidak terbatas dari gateway dengan konfigurasi ringan yang dapat mempersempit pencarian ke area dan kriteria pencarian tertentu, dan menyajikan tampilan informasi secara khusus, serta menerapkan kontrol akses khusus.

Kompleksitas dan distribusi topologi

Penjelajah Arch mendukung skema otentikasi umum, dan dapat merayapi area yang dilindungi kata sandi. Mengakses log dari server web jarak jauh menghadirkan masalah sampai saat ini, namun ini baru saja diselesaikan di Arch versi 1.42. Solusi kami untuk ini adalah dengan menggunakan prosesor log yang dikerahkan di lokasi yang jauh. Proses ini menghasilkan log yang tersedia secara lokal dan menghasilkan hasil dalam bentuk file Peta Situs yang dikompres dan dienkripsi. File ini kemudian diakses oleh penjelajah Arch.

Heterogenitas data

Menggunakan Apache Solr sebagai server indeks, Arch dapat mengindeks hampir semua hal yang dapat disajikan sebagai pasangan atribut-nilai yang dikodekan dalam XML. Muncul dengan beberapa modul pra-bangun yang dapat menangani hampir semua jenis format data, dan modul baru tidak sulit untuk ditulis. Dengan demikian, Arch tidak terbatas pada pengindeksan dokumen web saja, ia bisa mengindeks secara praktis apapun.

Kesimpulan

Arch menyediakan mesin pencari perusahaan yang hebat dan efisien http://www.atnf.csiro.au/computing/software/arch/ yang lebih dari memenuhi semua persyaratan layanan pencarian perusahaan yang penting. Selain itu, Arch dan komponen utamanya, Nutch and Solr, sangat modular dan dapat diperluas, memungkinkan penerapan solusi kustom yang mudah. Arch disediakan sebagai perangkat lunak open source gratis, memberi Anda dan organisasi Anda kekuatan penuh modifikasi dan penyesuaian agar sesuai dengan kebutuhan Anda.

Postingan Populer