
AI ສຽງ (AI Voice Agent) ແມ່ນຕົວແທນທີ່ປະຕິບັດຂະບວນການຕໍ່ເນື່ອງຕັ້ງແຕ່ການຖອດຂໍ້ຄວາມຈາກສຽງ (STT), ການເຂົ້າໃຈເຈດຕະນາ ແລະ ສ້າງຄຳຕອບດ້ວຍ LLM, ໄປຈົນເຖິງການສັງເຄາະສຽງເພື່ອຕອບໂຕ້ (TTS) ໂດຍໃຫ້ຄວາມຮູ້ສຶກທີ່ປະມວນຜົນໄດ້ ແບບ Real-time. ໃນບົດຄວາມນີ້, ພວກເຮົາຈະສະຫຼຸບກົນໄກ, ການເລືອກ Stack, ແລະ ຂັ້ນຕອນການນຳໃຊ້ AI ສຽງສຳລັບບໍລິສັດທີ່ຂະຫຍາຍທຸລະກິດເຂົ້າສູ່ລາວ ເພື່ອນຳໄປໃຊ້ໃນສູນບໍລິການລູກຄ້າ (Call Center), ການປະຕິບັດງານໜ້າວຽກຕົວຈິງ, ແລະ ການຈັດການຄຳສັ່ງຊື້-ຂາຍ. ເນື່ອງຈາກພາສາລາວຖືກຈັດຢູ່ໃນກຸ່ມພາສາທີ່ມີຊັບພະຍາກອນໜ້ອຍ (Low-resource language) ໃນລະດັບໂລກ, ການຕັ້ງສົມມຸດຕິຖານແບບດຽວກັບພາສາອັງກິດຈະນຳໄປສູ່ຄວາມລົ້ມເຫຼວ. ຈາກປະສົບການທີ່ບໍລິສັດຂອງພວກເຮົາໄດ້ມີສ່ວນຮ່ວມໃນໂຄງການ AI ສຽງໃນປະເທດລາວ, ພວກເຮົາຈະນຳສະເໜີໂຄງສ້າງທີ່ສາມາດເຮັດວຽກໄດ້ຈິງ ແລະ ຈຸດທີ່ຄວນລະວັງ ໂດຍແຊກປະສົບການຈາກການເຮັດວຽກຕົວຈິງ.
ກ່ອນອື່ນໝົດ, ຂໍອະທິບາຍວ່າ Voice AI Agent ແມ່ນຫຍັງ ແລະ ເມື່ອຈະເປີດຕົວ ຫຼື Launch ໃນພາສາລາວ ຈະມີຄວາມແຕກຕ່າງຈາກພາສາອັງກິດແນວໃດ. ຖ້າເຫັນພາບລວມຂອງກົນໄກການເຮັດວຽກແລ້ວ, ຈະຊ່ວຍໃຫ້ການຕັດສິນໃຈໃນການເລືອກ ແລະ ຂັ້ນຕອນການນຳໃຊ້ໃນພາຍຫຼັງມີຄວາມວ່ອງໄວຂຶ້ນ.
ພາຍໃນຂອງ Voice AI Agent ໂດຍທົ່ວໄປແລ້ວຈະແບ່ງອອກເປັນ 3 ຊັ້ນຄື:
ໃນໄລຍະຫຼັງໆນີ້, ໄດ້ມີການປະກົດຕົວຂອງໂມເດວ "Voice Native" ເຊັ່ນ OpenAI Realtime API ຫຼື Gemini Live ເຊິ່ງສາມາດເຮັດວຽກ STT → LLM → TTS ໃຫ້ສຳເລັດພາຍໃນ API ດຽວ. ໂມເດວເຫຼົ່ານີ້ມີຄວາມໜ່ວງຂອງການຕອບສະໜອງທີ່ສັ້ນ ແລະ ສາມາດສ້າງປະສົບການທີ່ໃກ້ຄຽງກັບການສົນທະນາກັບມະນຸດໄດ້ງ່າຍ. ຢ່າງໃດກໍຕາມ, ເນື່ອງຈາກພາສາທີ່ຮອງຮັບ, ຕົ້ນທຶນ ແລະ ຄວາມສາມາດໃນການປັບແຕ່ງມີເງື່ອນໄຂທີ່ແຕກຕ່າງຈາກໂຄງສ້າງ 3 ຊັ້ນແບບດັ້ງເດີມ, ການເລືອກໃຊ້ຈຶ່ງຈຳເປັນຕ້ອງພິຈາລະນາໃຫ້ສອດຄ່ອງກັບ Use Case.
ພາສາລາວມີຈຳນວນຜູ້ເວົ້າປະມານ 7 ລ້ານຄົນໃນທົ່ວໂລກ ເຊິ່ງເມື່ອທຽບກັບພາສາອັງກິດ, ພາສາຈີນ ແລະ ພາສາສະເປນແລ້ວ, ປະລິມານຂໍ້ມູນສຳລັບການຮຽນຮູ້ແມ່ນໜ້ອຍກວ່າຫຼາຍ. ສິ່ງນີ້ສົ່ງຜົນກະທົບຕໍ່ເກືອບທຸກຊັ້ນຂອງ Voice AI Stack:
ສະຫຼຸບກໍຄື, ຖ້າຫາກນຳເອົາໂຄງສ້າງ Voice AI ທີ່ເຮັດວຽກດ້ວຍພາສາອັງກິດມາປ່ຽນເປັນພາສາລາວໂດຍກົງ, ຄວາມຖືກຕ້ອງໃນຄວາມຮູ້ສຶກຂອງຜູ້ໃຊ້ຈະຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ. ບໍລິສັດຂອງພວກເຮົາ, ໃນເວລາທີ່ ເປີດຕົວ ຫຼື Launch ລຸ້ນພາສາລາວ, ພວກເຮົາຈະບໍ່ຕັ້ງສົມມຸດຕິຖານເດັດຂາດວ່າ "ຖ້າເຮັດວຽກໄດ້ໃນພາສາອັງກິດ ກໍຈະເຮັດວຽກໄດ້ໃນພາສາລາວ". ພວກເຮົາໄດ້ວາງໂຄງຮ່າງການປະເມີນຜົນໂດຍຕັ້ງສົມມຸດຕິຖານວ່າເປັນພາສາທີ່ມີຊັບພະຍາກອນຕ່ຳ (Low-resource language) ຕັ້ງແຕ່ຕົ້ນ ແລະ ວາງແຜນການດຳເນີນງານທີ່ລວມເອົາ HITL (ການມີສ່ວນຮ່ວມຂອງມະນຸດ) ເຂົ້າໄປນຳ.
ການນຳໃຊ້ AI ສຽງໃນພາສາລາວທີ່ເໝາະສົມກັບຄວາມເປັນຈິງນັ້ນ ຈະສຸມໃສ່ການເຮັດວຽກໃນພາກສະໜາມທີ່ການໃຊ້ຂໍ້ຄວາມແຊັດ (Text chat) ເຮັດໄດ້ຍາກ. ຂໍແນະນຳ 3 ສະຖານະການຕົວຢ່າງທີ່ສຳຄັນດັ່ງນີ້:
ສູນບໍລິການລູກຄ້າ (Call Center) ຂອງບໍລິສັດຍີ່ປຸ່ນທີ່ເຂົ້າມາລົງທຶນໃນລາວ ຈະມີການປ່ຽນພາສາທີ່ໃຊ້ຕາມຄູ່ສົນທະນາ. ພາບທີ່ເຫັນໄດ້ໃນຊີວິດປະຈຳວັນຄື ການໃຊ້ພາສາໄທ ຫຼື ພາສາອັງກິດກັບຜູ້ບໍລິຫານພາຍໃນບໍລິສັດ, ໃຊ້ພາສາລາວກັບພະນັກງານປະຕິບັດງານ (Operator) ແລະ ຜູ້ໃຊ້ງານປາຍທາງ (End-user), ແລະ ໃຊ້ພາສາຍີ່ປຸ່ນໃນການຕິດຕໍ່ກັບສຳນັກງານໃຫຍ່.
ການຈັດຫາພະນັກງານປະຕິບັດງານທີ່ສາມາດເວົ້າໄດ້ຫຼາຍພາສາແມ່ນມີຄວາມຫຍຸ້ງຍາກທັງໃນດ້ານການຮັບສະໝັກ ແລະ ການຝຶກອົບຮົມ. ດັ່ງນັ້ນ, ການນຳເອົາ AI ສຽງມາໃຊ້ເປັນດ່ານໜ້າໃນການຮັບສາຍ ເພື່ອໃຫ້ສາມາດກວດສອບພາສາທີ່ໂທເຂົ້າມາໂດຍອັດຕະໂນມັດ, ໂດຍໃຫ້ AI ຕອບຄຳຖາມງ່າຍໆ ແລະ ສົ່ງຂໍ້ມູນຕໍ່ໃຫ້ ພະນັກງານທີ່ສາມາດຕອບຄຳຖາມທີ່ຊັບຊ້ອນໄດ້ ຈຶ່ງເປັນການອອກແບບທີ່ເໝາະສົມກັບຄວາມເປັນຈິງຫຼາຍກວ່າ.
ຈຸດສຳຄັນ ຫຼື ແກນຫຼັກ ໃນການນຳມາໃຊ້ງານມີ 3 ປະການຄື: (a) ຄວາມຖືກຕ້ອງໃນການຮັບຮູ້ພາສາລາວໃນດ້ານຄຳສັບທຸລະກິດນັ້ນສາມາດນຳມາໃຊ້ງານໄດ້ຈິງຫຼືບໍ່, (b) ການຕັ້ງຄ່າຂີດຈຳກັດ (Threshold) ຂອງການກວດສອບພາສາອັດຕະໂນມັດໃຫ້ຕ່ຳລົງ ເພື່ອໃຫ້ "ສົ່ງຕໍ່ໃຫ້ມະນຸດໃນກໍລະນີທີ່ບໍ່ແນ່ໃຈ", ແລະ (c) ການບັນທຶກສຽງ ແລະ ການຖອດຂໍ້ຄວາມໄວ້ສະເໝີ ເພື່ອຕິດຕາມບັນທຶກ (Log) ໃນທຸກໆອາທິດແລ້ວນຳມາປັບປຸງ. ແທນທີ່ຈະຕັ້ງເປົ້າໝາຍໃຫ້ເປັນລະບົບອັດຕະໂນມັດຢ່າງສົມບູນຕັ້ງແຕ່ຕົ້ນ, ການເລີ່ມຕົ້ນດ້ວຍ KPI ທີ່ເປັນຈິງ ເຊັ່ນ "ການຫຼຸດພາລະຂອງພະນັກງານປະຕິບັດງານລົງ 30%" ຈະເຮັດໃຫ້ໂຄງການສາມາດດຳເນີນຕໍ່ໄປໄດ້ງ່າຍກວ່າ.
ໃນສະຖານທີ່ເຮັດວຽກເຊັ່ນ: ໂຮງງານ, ສາງໂລຈິສະຕິກ, ຫຼື ສະຖານທີ່ກໍ່ສ້າງ ເຊິ່ງເປັນບ່ອນທີ່ຕ້ອງໃຊ້ສອງມືໃນການເຮັດວຽກ, ການປ້ອນຂໍ້ມູນຜ່ານແທັບເລັດ ຫຼື ຄີບອດຂອງ PC ຈະບໍ່ສາມາດໃຊ້ງານໄດ້. ຖ້າສາມາດກວດສອບສິນຄ້າຄົງຄັງ, ລາຍງານການເຮັດວຽກ, ແລະ ແຈ້ງເຫດຂັດຂ້ອງດ້ວຍສຽງໄດ້, ຜະລິດພາບໃນໜ້າວຽກຈະປ່ຽນແປງໄປຢ່າງເຫັນໄດ້ຊັດ.
ຄວນເລີ່ມຕົ້ນຈາກສະຖານະການງ່າຍໆ ເຊັ່ນ: "ເມື່ອອ່ານເລກສິນຄ້າຄົງຄັງ, AI ຈະກວດສອບລະບົບສິນຄ້າຄົງຄັງ ແລະ ຕອບກັບຈຳນວນທີ່ເຫຼືອດ້ວຍສຽງ" ຫຼື "ເມື່ອເວົ້າຄຳສັບທີ່ກຳນົດໄວ້ວ່າເຮັດວຽກສຳເລັດ, ລະບົບຈະບັນທຶກການເຮັດວຽກນັ້ນໃຫ້". ການເນັ້ນໄປທີ່ຮູບແບບ "ປະໂຫຍກທີ່ກຳນົດໄວ້ → ຂະບວນການທີ່ກຳນົດໄວ້" ຈະງ່າຍຕໍ່ການຈັດການທັງໃນດ້ານຄວາມຖືກຕ້ອງ ແລະ ພາລະໃນການດຳເນີນງານ ຫຼາຍກວ່າການສົນທະນາທີ່ຊັບຊ້ອນ.
ການເລືອກຫູຟັງ ຫຼື ສະມາດໂຟນສຳລັບວຽກງານກໍເປັນປັດໄຈທີ່ຕັດສິນຄວາມສຳເລັດ. ໃນສະຖານທີ່ທີ່ມີສຽງລົບກວນຫຼາຍ, ຄວາມຖືກຕ້ອງໃນການຮັບຮູ້ສຽງຈະແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍຂຶ້ນຢູ່ກັບວ່າໄມໂຄຣໂຟນມີຟັງຊັນຕັດສຽງລົບກວນ (Noise Cancelling) ຫຼື ບໍ່. ເນື່ອງຈາກສະພາບອາກາດຂອງລາວ, ອຸປະກອນອາດມີອຸນຫະພູມສູງໃນຊ່ວງລະດູຮ້ອນຢູ່ໜ້າວຽກ, ດັ່ງນັ້ນຕ້ອງກວດສອບຄວາມທົນທານ ແລະ ຄວາມສະຖຽນຂອງການສື່ສານຜ່ານການທົດລອງ (Pilot) ໃຫ້ແນ່ໃຈກ່ອນສະເໝີ.
ຢູ່ລາວ, ການສັ່ງຊື້ສິນຄ້າ ແລະ ການສອບຖາມຂໍ້ມູນຜ່ານໂທລະສັບຕັ້ງໂຕະ ຫຼື ການໂທຜ່ານ WhatsApp ຍັງມີຫຼາຍຢູ່. ການປ່ຽນສິ່ງເຫຼົ່ານີ້ໃຫ້ເປັນ Web フォーム ຢ່າງສົມບູນນັ້ນ ມັກຈະບໍ່ເປັນຈິງ ເມື່ອພິຈາລະນາເຖິງຄວາມຮູ້ດ້ານດິຈິຕອນ ແລະ ນິໄສຂອງລູກຄ້າ.
ຖ້າຫາກນຳເອົາລະບົບສຽງ IVR ມາປະສົມປະສານກັບ AI, ກໍສາມາດສ້າງໂຄງສ້າງດັ່ງນີ້ໄດ້: (a) ຕອບກັບການສອບຖາມຂໍ້ມູນທົ່ວໄປ ເຊັ່ນ: ສະຕັອກສິນຄ້າ, ເວລາເປີດ-ປິດ, ທີ່ຕັ້ງຮ້ານຄ້າ ໄດ້ຕະຫຼອດ 24 ຊົ່ວໂມງ ດ້ວຍລະບົບຕອບຮັບອັດຕະໂນມັດ, (b) ຮັບເນື້ອຫາການສັ່ງຊື້ຜ່ານສຽງ, ຖອດຂໍ້ຄວາມ ແລະ ສົ່ງຂໍ້ມູນຕໍ່ໃຫ້ ຜູ້ຮັບຜິດຊອບຜ່ານ LINE/WhatsApp, (c) ໂອນສາຍໃຫ້ພະນັກງານສະເພາະການສອບຖາມທີ່ມີຄວາມຮີບດ່ວນສູງເທົ່ານັ້ນ.
ຈຸດຍາກໃນການປະຕິບັດງານແມ່ນ ຄວາມຖືກຕ້ອງໃນການຮັບຮູ້ການອ່ານຕົວເລກ (ລາຄາ, ຈຳນວນ) ທີ່ເປັນເອກະລັກຂອງພາສາລາວ ແລະ ການຈັດການກັບຄຳນາມສະເພາະ (ຊື່ສິນຄ້າ, ຊື່ສະຖານທີ່, ຊື່ຄົນ). ຈຳເປັນຕ້ອງມີການອອກແບບທີ່ບໍ່ຍອມໃຫ້ເກີດຂໍ້ຜິດພາດ ເຊັ່ນ: ການມີວັດຈະນານຸກົມຄຳນາມສະເພາະໄວ້ທີ່ຝັ່ງ Gateway, ຫຼື ການໃຫ້ລະບົບທວນຄືນຜົນການຮັບຮູ້ເພື່ອຢືນຢັນຄວາມຖືກຕ້ອງສະເໝີ.
ສະແຕັກ (Stack) ຂອງ AI ສຽງພາສາລາວ ສາມາດແບ່ງອອກໄດ້ເປັນ 3 ປະເພດຫຼັກ ຄື: ລະບົບ Realtime API, ການປະສົມປະສານລະຫວ່າງ STT/TTS ແບບດັ້ງເດີມ ແລະ ການໂຮສຕ໌ດ້ວຍຕົນເອງແບບ OSS. ໂດຍຈະຂໍສະຫຼຸບລັກສະນະເດັ່ນຂອງແຕ່ລະປະເພດ ໂດຍອີງໃສ່ຄວາມເປັນຈິງຂອງຄວາມຖືກຕ້ອງໃນການໃຊ້ງານພາສາລາວ.
OpenAI Realtime API ແລະ Gemini Live ແມ່ນ API ທີ່ຮັບການປ້ອນຂໍ້ມູນສຽງແບບສະຕຣີມມິງ ແລະ ສົ່ງຄືນການຕອບໂຕ້ຂອງ LLM ເປັນສຽງແບບສະຕຣີມມິງ. ມີຄວາມໜ່ວງຂອງການຕອບໂຕ້ທີ່ສັ້ນ, ເຮັດໃຫ້ສາມາດບັນລຸປະສົບການທີ່ໃກ້ຄຽງກັບການສົນທະນາກັບມະນຸດໄດ້ງ່າຍ.
ຂໍ້ດີແມ່ນຄວາມງ່າຍໃນການນຳໄປໃຊ້ງານ, ໂດຍບໍ່ຈຳເປັນຕ້ອງຈັດການການເຊື່ອມຕໍ່ລະຫວ່າງ STT, LLM ແລະ TTS ດ້ວຍຕົນເອງ. ຖ້າໃຊ້ SDK, ທ່ານສາມາດສ້າງເດໂມທີ່ເຮັດວຽກໄດ້ດ້ວຍລະຫັດພຽງບໍ່ເທົ່າໃດຮ້ອຍແຖວ.
ຢ່າງໃດກໍຕາມ, ສະຖານະການຮອງຮັບພາສາລາວຈະປ່ຽນແປງໄປຕາມຜູ້ໃຫ້ບໍລິການ ແລະ ຊ່ວງເວລາ. ກ່ອນທີ່ຈະນຳໄປໃຊ້ງານຈິງ, ຕ້ອງກວດສອບພາສາທີ່ຮອງຮັບ ແລະ ສະຖານະປັດຈຸບັນຂອງຄວາມຖືກຕ້ອງໃນການຮັບຮູ້ຈາກເອກະສານທາງການສະເໝີ. ໃນພາສາທີ່ບໍ່ໄດ້ຢູ່ໃນລາຍການຮອງຮັບ, ຄວາມຖືກຕ້ອງອາດຈະຫຼຸດລົງຢ່າງເຫັນໄດ້ຊັດເຈນໃນບາງສຳນຽງ ຫຼື ຄຳສັບສະເພາະທາງ. ສຳລັບບໍລິສັດຂອງພວກເຮົາ, ເມື່ອມີການນຳໃຊ້ລະບົບ Realtime API ໃນໂຄງການພາສາລາວ, ພວກເຮົາຈະດຳເນີນການປະເມີນຜົນແບບທົດລອງ (Pilot) ດ້ວຍຕົວຢ່າງສຽງທີ່ເປັນຕົວແທນຂອງກຸ່ມຜູ້ໃຊ້ງານສະເໝີ.
ໃນການເລືອກ STT ຕາມໂຄງສ້າງ 3 ຊັ້ນແບບດັ້ງເດີມ, ຕົວຢ່າງທີ່ເປັນຕົວແທນໄດ້ດີຄື Whisper (OpenAI, ມີເວີຊັນ OSS) ແລະ Google Cloud Speech-to-Text.
Whisper ເປັນໂມເດວທີ່ຮຽນຮູ້ຫຼາຍພາສາ ເຊິ່ງສາມາດຮອງຮັບໄດ້ຫຼາຍພາສາລວມທັງພາສາລາວ. ເວີຊັນ OSS ສາມາດເຮັດ Self-host ໄດ້, ເຮັດໃຫ້ງ່າຍຕໍ່ການນຳໃຊ້ໃນໜ້າວຽກທີ່ບໍ່ສາມາດນຳຂໍ້ມູນອອກໄປພາຍນອກໄດ້. ໃນທາງກັບກັນ, ເມື່ອປຽບທຽບກັບໂມເດວທາງການຄ້າທີ່ຖືກປັບປຸງມາເພື່ອພາສາລາວໂດຍສະເພາະ, ອາດຈະມີຄວາມແຕກຕ່າງໃນດ້ານຄວາມແມ່ນຍຳຂອງຄຳສັບສະເພາະທາງອຸດສາຫະກຳ ຫຼື ພາສາຖິ່ນ.
Google STT ເປັນ Managed Service ເຊິ່ງມີການອັບເດດພາສາທີ່ຮອງຮັບ ແລະ ຄວາມແມ່ນຍຳຂ້ອນຂ້າງໄວ. ສະຖານະການຮອງຮັບພາສາລາວຈະປ່ຽນແປງໄປຕາມ Region, API Version ແລະ Model Type, ດັ່ງນັ້ນໃນຂັ້ນຕອນການຄັດເລືອກ ຈຶ່ງຈຳເປັນຕ້ອງກວດສອບໜ້າເວັບໄຊທີ່ຮອງຮັບພາສາຢ່າງເປັນທາງການໂດຍກົງ.
ບໍ່ວ່າຈະເລືອກໃຊ້ແບບໃດ, ກົນໄກໃນການເສີມຄຳສັບສະເພາະຂອງວຽກງານ (ຊື່ສິນຄ້າ, ຄຳຫຍໍ້ພາຍໃນບໍລິສັດ) ດ້ວຍ Dictionary Hint ແມ່ນຖືວ່າເປັນສິ່ງທີ່ຈຳເປັນຢ່າງຍິ່ງສຳລັບພາສາລາວ.
TTS ສໍາລັບພາສາລາວອາດຈະບໍ່ໄດ້ສຽງສັງເຄາະທີ່ເປັນທໍາມະຊາດເທົ່າກັບພາສາອັງກິດ. ໃນເວລາເລີ່ມນໍາໃຊ້, ຄວນຄໍານຶງເຖິງສິ່ງຕໍ່ໄປນີ້:
ໃນທາງປະຕິບັດ, ແທນທີ່ຈະສະແຫວງຫາຄວາມເປັນທໍາມະຊາດທີ່ສົມບູນແບບດ້ວຍ TTS, ການຕັ້ງເປົ້າໝາຍໃຫ້ "ວະລີທີ່ຈໍາເປັນຕໍ່ການເຮັດວຽກສາມາດຫຼິ້ນສຽງໄດ້ຢ່າງໝັ້ນຄົງ ແລະ ຟັງອອກ" ຈະຊ່ວຍໃຫ້ພົບທາງອອກທີ່ເປັນຈິງຫຼາຍກວ່າ. ການອ່ານຂໍ້ຄວາມຍາວໆລວດດຽວມັກຈະເຮັດໃຫ້ເຫັນຄວາມບໍ່ເປັນທໍາມະຊາດໄດ້ງ່າຍ, ດັ່ງນັ້ນການໃຊ້ວິທີແບ່ງຂໍ້ຄວາມຕອບກັບໃຫ້ເປັນປະໂຫຍກສັ້ນໆ ຫຼື ການນໍາເອົາສຽງທີ່ບັນທຶກໄວ້ລ່ວງໜ້າສໍາລັບປະໂຫຍກທີ່ໃຊ້ປະຈໍາມາປະສົມປະສານກັນ ກໍເປັນວິທີທີ່ມີປະສິດທິຜົນເຊັ່ນກັນ.
ເມື່ອປຶກສາຫາລືກ່ຽວກັບ AI ສຽງພາສາລາວພາຍໃນບໍລິສັດ, ມັກຈະມີການຕັ້ງສົມມຸດຕິຖານວ່າ "ມັນເຮັດວຽກເປັນພາສາອັງກິດໄດ້ ກໍບໍ່ມີບັນຫາຫຍັງແມ່ນບໍ່?" ຫຼື "ຖ້າ LLM ສະຫຼາດພຽງພໍ ກໍພຽງພໍແລ້ວແມ່ນບໍ່?". ທັງສອງຢ່າງນີ້ເປັນຄວາມເຂົ້າໃຈຜິດທີ່ອັນຕະລາຍ ເຊິ່ງຈຳເປັນຕ້ອງໄດ້ແກ້ໄຂໃຫ້ເຂົ້າໃຈກົງກັນຕັ້ງແຕ່ຕົ້ນ.
ການສາທິດ AI ສຽງພາສາອັງກິດມີຄວາມແມ່ນຍຳເພີ່ມທະວີຂຶ້ນເລື້ອຍໆໃນແຕ່ລະປີ ຈົນຮອດລະດັບທີ່ບໍ່ສາມາດແຍກອອກຈາກການສົນທະນາກັບມະນຸດໄດ້. ແນວໃດກໍຕາມ, ຄວາມແມ່ນຍຳດັ່ງກ່າວບໍ່ສາມາດນຳມາໃຊ້ກັບພາສາລາວໄດ້ໂດຍກົງ.
ເຫດຜົນແມ່ນງ່າຍດາຍ ເພາະປະລິມານຂໍ້ມູນທີ່ໃຊ້ໃນການຮຽນຮູ້ມີຄວາມແຕກຕ່າງກັນຢ່າງມະຫາສານ. ເຖິງແມ່ນວ່າຈະເປັນ Model Architecture ດຽວກັນ, ໃນກໍລະນີທີ່ພາສາອັງກິດໃຫ້ຄວາມແມ່ນຍຳໃນການຮັບຮູ້ສູງ, ແຕ່ສຳລັບພາສາລາວມັກຈະມີຄ່າຫຼຸດລົງຢ່າງເຫັນໄດ້ຊັດ (ຕົວເລກສະເພາະຈະຂຶ້ນຢູ່ກັບ Model, ຜູ້ເວົ້າ ແລະ ຫົວຂໍ້, ສະນັ້ນຈຶ່ງຈຳເປັນຕ້ອງມີການປະເມີນໂດຍໃຊ້ຂໍ້ມູນຂອງບໍລິສັດເອງໃນຂັ້ນຕອນທົດລອງ ຫຼື Pilot).
ເພື່ອປິດຊ່ອງຫວ່າງນີ້, ຈຳເປັນຕ້ອງມີການສັ່ງສົມວິທີການຕ່າງໆ ເຊັ່ນ: (a) ການເພີ່ມວັດຈະນານຸກົມ/Hotword ທີ່ສະເພາະເຈາະຈົງກັບຂະແໜງທຸລະກິດໃຫ້ກັບ STT, (b) ການອອກແບບໃຫ້ຜູ້ໃຊ້ເວົ້າທວນຄືນ, (c) ການໃຫ້ LLM ປ່ຽນຂໍ້ມູນທີ່ບໍ່ຊັດເຈນໃຫ້ກາຍເປັນຄຳຖາມຢືນຢັນ. ຖ້າອະທິບາຍພາຍໃນບໍລິສັດວ່າ "ເພາະມັນເຮັດວຽກໄດ້ດີໃນພາສາອັງກິດ ສະນັ້ນພາສາລາວກໍຕ້ອງໄດ້ຄືກັນ" ຈະເຮັດໃຫ້ສູນເສຍຄວາມເຊື່ອໝັ້ນທັນທີເມື່ອເກີດຄວາມຜິດພາດໃນໜ້າວຽກຕົວຈິງ. ການອອກແບບໂດຍຕັ້ງສົມມຸດຕິຖານໄວ້ຕັ້ງແຕ່ຕົ້ນວ່າຈະມີຊ່ອງຫວ່າງດ້ານຄວາມແມ່ນຍຳນັ້ນຖືເປັນວິທີທີ່ປອດໄພກວ່າ.
ມີຫຼາຍຄຳຖາມທີ່ຖາມວ່າ "ໄດ້ຍິນມາວ່າ LLM ລຸ້ນໃໝ່ໆມີຄວາມສາມາດດ້ານຫຼາຍພາສາທີ່ດີ, ສະນັ້ນພຽງແຕ່ເອີ້ນໃຊ້ LLM ກໍສາມາດສ້າງ AI ສຽງໄດ້ເລີຍບໍ່?" ໃນຄວາມເປັນຈິງແລ້ວ, AI ສຽງບໍ່ສາມາດສຳເລັດໄດ້ດ້ວຍ LLM ພຽງຢ່າງດຽວ.
STT ທີ່ປ່ຽນສຽງປ້ອນເຂົ້າໃຫ້ເປັນຂໍ້ຄວາມ, TTS ທີ່ປ່ຽນຜົນລວມໃຫ້ກັບມາເປັນສຽງ, ແລະ ການເອີ້ນໃຊ້ເຄື່ອງມືເຂົ້າຫາລະບົບທຸລະກິດ (ການຈັດການສິນຄ້າຄົງຄັງ, ການຮັບອໍເດີ, ການຈັດການລູກຄ້າ) ລ້ວນແຕ່ເປັນໜ້າທີ່ອື່ນທີ່ຢູ່ພາຍນອກຂອງ LLM. ເຖິງແມ່ນວ່າຈະປ່ຽນແທນພຽງແຕ່ LLM, ແຕ່ຖ້າຫາກຊັ້ນຂໍ້ມູນອ້ອມຂ້າງເຫຼົ່ານີ້ຍັງອ່ອນແອ, ປະສົບການຂອງຜູ້ໃຊ້ກໍຈະບໍ່ດີຂຶ້ນ.
ນອກຈາກນີ້, ໃນການນຳໃຊ້ AI ເຂົ້າໃນວຽກງານຕົວຈິງ ຕ້ອງມີການອອກແບບທີ່ຕັ້ງສົມມຸດຕິຖານວ່າ "ຈະມີມະນຸດເຂົ້າມາແຊກແຊງໃນກໍລະນີທີ່ LLM ບໍ່ສາມາດຕອບໄດ້ດີ". ຖ້າຫາກບໍ່ມີການໃສ່ HITL ເຂົ້າໄປ ແລະ ປ່ອຍໃຫ້ LLM ຮັບຜິດຊອບທັງໝົດ, ບັນຫາ Hallucination ຈະກາຍເປັນຄວາມຜິດພາດໃນການບໍລິການລູກຄ້າໂດຍກົງ. ເມື່ອບໍລິສັດຂອງພວກເຮົາເຂົ້າຮ່ວມໂຄງການ AI ສຽງພາສາລາວ, ພວກເຮົາຈະຕົກລົງກັນຕັ້ງແຕ່ຕົ້ນສະເໝີວ່າ ຈະຕ້ອງອອກແບບການດຳເນີນງານໂດຍອີງໃສ່ "5 ຊັ້ນຂໍ້ມູນ ຄື: STT, LLM, TTS, ລະບົບທຸລະກິດ ແລະ ມະນຸດ" ບໍ່ແມ່ນພຽງແຕ່ LLM ຢ່າງດຽວ.

ໂຄງການ AI ສຽງພາສາລາວ ຈະປະສົບກັບບັນຫາຫາກດຳເນີນການໃນຮູບແບບດຽວກັນກັບໂຄງການ AI ສຽງພາສາອັງກິດ. ຈາກການທີ່ພວກເຮົາໄດ້ດຳເນີນຫຼາຍໂຄງການຜ່ານມາ, ພວກເຮົາໄດ້ຈັດລະບຽບວິທີການທີ່ນຳໄປສູ່ຜົນລັດທີ່ໝັ້ນຄົງອອກເປັນ 3 ເຟສ (Phase) ດັ່ງນີ້:
ໄລຍະທຳອິດມີຫຼັກການພື້ນຖານຄື "ຫ້າມນຳໃຊ້ໃນການເຮັດວຽກຈິງທັນທີ".
ຂັ້ນຕອນການດຳເນີນງານມີດັ່ງນີ້:
ໃນຂັ້ນຕອນນີ້, ຈະເຫັນຊ່ອງວ່າງຂອງຄວາມແມ່ນຍຳທີ່ເປັນເອກະລັກຂອງພາສາລາວ. ຖ້າໄດ້ຂໍ້ສະຫຼຸບວ່າ "ຍາກກວ່າທີ່ຄາດໄວ້", ນັ້ນບໍ່ຖືວ່າເປັນຄວາມລົ້ມເຫຼວ ແຕ່ເປັນຂໍ້ມູນທີ່ຈະນຳໄປໃຊ້ໃນການອອກແບບ Phase 2 ຕໍ່ໄປ.
ອີງຕາມຜົນການປະເມີນໃນໄລຍະທີ 1, ພວກເຮົາຈະເລີ່ມຕົ້ນການນຳໃຊ້ງານຈິງແບບເປັນຂັ້ນຕອນ. ໂດຍຍັງບໍ່ທັນໄດ້ຕັ້ງເປົ້າໝາຍໃຫ້ເປັນອັດຕະໂນມັດຢ່າງສົມບູນ.
ໂດຍສະເພາະແມ່ນຈະມີການຈັດໂຄງສ້າງດັ່ງນີ້:
ສຳລັບບໍລິສັດທີ່ຂະຫຍາຍທຸລະກິດເຂົ້າມາໃນລາວ, ການອອກແບບໂດຍໃສ່ເງື່ອນໄຂ "ຖ້າຕ່ຳກວ່າຄ່າ Threshold ໃຫ້ສົ່ງຕໍ່ໃຫ້ມະນຸດ" ຫຼື ບໍ່ນັ້ນ, ຈະເປັນຕົວຕັດສິນອາຍຸການຂອງໂຄງການ. ຍິ່ງຕັ້ງເປົ້າໝາຍໃຫ້ເປັນອັດຕະໂນມັດຢ່າງສົມບູນຫຼາຍເທົ່າໃດ, ບັນຫາຄວາມຮັບຜິດຊອບເມື່ອເກີດຄວາມຜິດພາດໃນໜ້າວຽກຕົວຈິງກໍຈະເພີ່ມທະວີຂຶ້ນເລື້ອຍໆ ແລະ ເຮັດໃຫ້ການນຳໃຊ້ຢຸດສະງັກໄດ້ງ່າຍ.
ເມື່ອການດຳເນີນງານໃນ Phase 2 ມີຄວາມສະຖຽນລະພາບ ແລະ ສາມາດເບິ່ງເຫັນ KPI ໄດ້ແລ້ວ ກໍຈະກ້າວເຂົ້າສູ່ຂັ້ນຕອນການຂະຫຍາຍຂອບເຂດວຽກງານ ແລະ ຈຳນວນຜູ້ໃຊ້.
ສິ່ງທີ່ສຳຄັນໃນການຂະຫຍາຍລະບົບ (Scale) ບໍ່ແມ່ນເລື່ອງຂອງເຕັກໂນໂລຊີ ແຕ່ແມ່ນການກຽມຄວາມພ້ອມທາງດ້ານອົງກອນ.
ເມື່ອມາຮອດຂັ້ນນີ້, ຕຳແໜ່ງຂອງ AI ສຽງ ຈະປ່ຽນຈາກ "ການທົດລອງ PoC" ໄປສູ່ "ໂຄງສ້າງພື້ນຖານ ຫຼື Infrastructure ທາງທຸລະກິດຂອງບໍລິສັດທ້ອງຖິ່ນ". ຫາກອົງກອນມີຄວາມພ້ອມທີ່ຈະຮັບຜິດຊອບໃນການດຳເນີນງານ ກໍຈະກ້າວເຂົ້າສູ່ໄລຍະທີ່ສາມາດເບິ່ງເຫັນຜົນຕອບແທນຈາກການລົງທຶນໃນໄລຍະຍາວໄດ້.

ສະຫຼຸບຈຸດສຳຄັນໃນການນຳໃຊ້ AI ສຽງພາສາລາວ.
ຈາກປະສົບການຂອງພວກເຮົາ, AI ສຽງພາສາລາວຖ້າ "ດຳເນີນການດ້ວຍຄວາມຮູ້ສຶກດຽວກັນກັບພາສາອັງກິດ" ຈະພົບກັບອຸປະສັກຢ່າງແນ່ນອນ, ແຕ່ຖ້າ "ອອກແບບຢ່າງລະມັດລະວັງໂດຍອີງໃສ່ພື້ນຖານພາສາທີ່ມີຊັບພະຍາກອນໜ້ອຍ" ຈະສາມາດສ້າງຜົນສຳເລັດໄດ້ຢ່າງໝັ້ນຄົງ. ສຳລັບບໍລິສັດທີ່ຕ້ອງການໃຫ້ລະບົບນີ້ກາຍເປັນໂຄງສ້າງພື້ນຖານ ຫຼື Infrastructure ຂອງການເຮັດວຽກໃນທ້ອງຖິ່ນ, ນີ້ແມ່ນຂະແໜງການທີ່ຄຸ້ມຄ່າທີ່ຈະໃຊ້ເວລາໃນການອອກແບບໂຄງສ້າງເບື້ອງຕົ້ນ ແລະ ກົດລະບຽບການດຳເນີນງານ.
Chi
ສຳເລັດການສຶກສາສາຂາວິທະຍາສາດຄອມພິວເຕີ (Information Science) ຈາກມະຫາວິທະຍາໄລແຫ່ງຊາດລາວ ໂດຍໃນລະຫວ່າງການສຶກສາມີສ່ວນຮ່ວມໃນການພັດທະນາຊອບແວສະຖິຕິ (Statistical Software) ຈາກປະສົບການຕົວຈິງ ຈຶ່ງໄດ້ສ້າງພື້ນຖານດ້ານການວິເຄາະຂໍ້ມູນ (Data Analysis) ແລະ ການໂປຣແກຣມມິງ (Programming) ຢ່າງເຂັ້ມແຂງ. ຕັ້ງແຕ່ປີ 2021 ໄດ້ກ້າວເຂົ້າສູ່ເສັ້ນທາງການພັດທະນາ Web ແລະ ແອັບພລິເຄຊັນ (Application) ແລະ ຕັ້ງແຕ່ປີ 2023 ເປັນຕົ້ນມາ ໄດ້ສັ່ງສົມປະສົບການພັດທະນາຢ່າງເຕັມຮູບແບບທັງໃນດ້ານ Frontend ແລະ Backend. ໃນບໍລິສັດ ຮັບຜິດຊອບການອອກແບບ ແລະ ພັດທະນາ Web Service ທີ່ນຳໃຊ້ AI ພ້ອມທັງມີສ່ວນຮ່ວມໃນໂຄງການທີ່ປະສົມປະສານ ການປະມວນຜົນພາສາທຳມະຊາດ (NLP: Natural Language Processing), ການຮຽນຮູ້ຂອງເຄື່ອງ (Machine Learning), Generative AI ແລະ ໂມເດນພາສາຂະໜາດໃຫຍ່ (LLM: Large Language Model) ເຂົ້າກັບລະບົບທຸລະກິດ. ມີຄວາມກະຕືລືລົ້ນໃນການຕິດຕາມເທັກໂນໂລຊີໃໝ່ລ່າສຸດຢູ່ສະເໝີ ແລະ ໃຫ້ຄວາມສຳຄັນກັບຄວາມວ່ອງໄວໃນທຸກຂັ້ນຕອນ ຕັ້ງແຕ່ການທົດສອບດ້ານເທັກນິກ ຈົນເຖິງການນຳໄປໃຊ້ງານຈິງໃນລະບົບ Production.